論文の概要: VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time?
- arxiv url: http://arxiv.org/abs/2406.10889v1
- Date: Sun, 16 Jun 2024 10:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:12:13.984753
- Title: VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time?
- Title(参考訳): VELOCITI:ビデオ言語モデルは時間を通して意味論的概念を結合できるか?
- Authors: Darshana Saravanan, Darshan Singh, Varun Gupta, Zeeshan Khan, Vineet Gandhi, Makarand Tapaswi,
- Abstract要約: VELOCITIは、複雑な映像クリップ上に構築された新しいベンチマークで、ビデオ言語モデルにおける知覚とバインディングをテストする。
認識に基づくテストでは、類似のエンティティを共有するビデオキャプションペアを識別する必要があります。
私たちのバインディングテストでは、同じビデオに現れる異なるがもっともらしいエンティティを無視しながら、正しいエンティティを所定の状況に関連付けるモデルが必要です。
- 参考スコア(独自算出の注目度): 19.313541287648473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compositionality is a fundamental aspect of vision-language understanding and is especially required for videos since they contain multiple entities (e.g. persons, actions, and scenes) interacting dynamically over time. Existing benchmarks focus primarily on perception capabilities. However, they do not study binding, the ability of a model to associate entities through appropriate relationships. To this end, we propose VELOCITI, a new benchmark building on complex movie clips and dense semantic role label annotations to test perception and binding in video language models (contrastive and Video-LLMs). Our perception-based tests require discriminating video-caption pairs that share similar entities, and the binding tests require models to associate the correct entity to a given situation while ignoring the different yet plausible entities that also appear in the same video. While current state-of-the-art models perform moderately well on perception tests, accuracy is near random when both entities are present in the same video, indicating that they fail at binding tests. Even the powerful Gemini 1.5 Flash has a substantial gap (16-28%) with respect to human accuracy in such binding tests.
- Abstract(参考訳): 構成性は視覚言語理解の基本的な側面であり、ビデオには時間とともに動的に相互作用する複数の実体(例えば人、行動、シーン)を含むため、特に必要である。
既存のベンチマークは主に知覚能力に焦点を当てている。
しかし、彼らはモデルが適切な関係を通してエンティティを関連付ける能力であるバインディングを研究していない。
この目的のためにVELOCITIを提案する。VELOCITIは、複雑な映画クリップと、ビデオ言語モデル(コントラストとビデオLLM)の認識とバインディングをテストするための、密集したセマンティックロールラベルアノテーションの上に構築された新しいベンチマークである。
私たちの知覚に基づくテストでは、類似のエンティティを共有するビデオキャプチャペアの識別が必要であり、バインディングテストでは、同じビデオに現れる異なる、しかしもっともらしいエンティティを無視しながら、正しいエンティティを特定の状況に関連付けるモデルが必要です。
現在の最先端モデルは知覚テストでは適度に機能するが、両方の実体が同じビデオに存在している場合、精度はほぼランダムであり、それらが結合テストで失敗することを示している。
強力なGemini 1.5 Flashでさえ、そのようなバインディングテストにおける人間の正確性に関して、かなりのギャップ(16-28%)がある。
関連論文リスト
- On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - We Have So Much In Common: Modeling Semantic Relational Set Abstractions
in Videos [29.483605238401577]
本稿では,人間の学習にインスパイアされたビデオのセマンティック・リレーショナル・セットの抽象化を学習するためのアプローチを提案する。
視覚的特徴と自然言語の監督を組み合わせることで、一連のビデオにまたがる類似点のハイレベルな表現を生成する。
論文 参考訳(メタデータ) (2020-08-12T22:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。