論文の概要: Dynamic Scene Understanding from Vision-Language Representations
- arxiv url: http://arxiv.org/abs/2501.11653v1
- Date: Mon, 20 Jan 2025 18:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:25.134406
- Title: Dynamic Scene Understanding from Vision-Language Representations
- Title(参考訳): 視覚言語表現からの動的シーン理解
- Authors: Shahaf Pruss, Morris Alper, Hadar Averbuch-Elor,
- Abstract要約: 本稿では,現代の凍結した視覚言語表現からの知識を活用することにより,動的シーン理解タスクのためのフレームワークを提案する。
既存のアプローチと比較して、最小限のトレーニング可能なパラメータを使用しながら、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 11.833972582610027
- License:
- Abstract: Images depicting complex, dynamic scenes are challenging to parse automatically, requiring both high-level comprehension of the overall situation and fine-grained identification of participating entities and their interactions. Current approaches use distinct methods tailored to sub-tasks such as Situation Recognition and detection of Human-Human and Human-Object Interactions. However, recent advances in image understanding have often leveraged web-scale vision-language (V&L) representations to obviate task-specific engineering. In this work, we propose a framework for dynamic scene understanding tasks by leveraging knowledge from modern, frozen V&L representations. By framing these tasks in a generic manner - as predicting and parsing structured text, or by directly concatenating representations to the input of existing models - we achieve state-of-the-art results while using a minimal number of trainable parameters relative to existing approaches. Moreover, our analysis of dynamic knowledge of these representations shows that recent, more powerful representations effectively encode dynamic scene semantics, making this approach newly possible.
- Abstract(参考訳): 複雑なダイナミックなシーンを描写した画像は、全体状況の高レベルな理解と、参加するエンティティとそのインタラクションの詳細な識別の両方を必要とするため、自動解析が困難である。
現在のアプローチでは、状況認識やヒューマン・ヒューマン・ヒューマン・オブジェクト・インタラクションの検出など、サブタスクに適した異なる手法が採用されている。
しかし、画像理解の最近の進歩は、Webスケールの視覚言語(V&L)表現を活用してタスク固有のエンジニアリングを妨げていることが多い。
本研究では,現代の凍結したV&L表現からの知識を活用することにより,動的シーン理解タスクのためのフレームワークを提案する。
これらのタスクを一般的な方法でフレーミングすることで、構造化されたテキストの予測と解析、あるいは既存のモデルの入力に表現を直接結合することで、既存のアプローチと比較して最小限のトレーニング可能なパラメータを使用しながら、最先端の結果を得ることができます。
さらに,これらの表現の動的知識の解析により,近年のより強力な表現が動的シーンセマンティクスを効果的にエンコードしていることが示され,このアプローチが新たに可能になった。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Disentangling Content and Motion for Text-Based Neural Video
Manipulation [28.922000242744435]
自然言語で動画を操作するためのDiCoMoGANという新しい手法を提案する。
評価の結果,DiCoMoGANは既存のフレームベース手法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-05T21:49:41Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。