論文の概要: VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models
- arxiv url: http://arxiv.org/abs/2311.17404v2
- Date: Sat, 21 Sep 2024 14:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:27:53.384239
- Title: VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models
- Title(参考訳): VITATECS:ビデオ言語モデルの時間的概念理解のための診断データセット
- Authors: Shicheng Li, Lei Li, Shuhuai Ren, Yuanxin Liu, Yi Liu, Rundong Gao, Xu Sun, Lu Hou,
- Abstract要約: VITATECS, 診断用VIdeo-Text dAtasetについて述べる。
まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。
特定の時間的側面においてのみ、オリジナルと異なる反実的な映像記述を生成する。
- 参考スコア(独自算出の注目度): 27.280311932711847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perceive how objects change over time is a crucial ingredient in human intelligence. However, current benchmarks cannot faithfully reflect the temporal understanding abilities of video-language models (VidLMs) due to the existence of static visual shortcuts. To remedy this issue, we present VITATECS, a diagnostic VIdeo-Text dAtaset for the evaluation of TEmporal Concept underStanding. Specifically, we first introduce a fine-grained taxonomy of temporal concepts in natural language in order to diagnose the capability of VidLMs to comprehend different temporal aspects. Furthermore, to disentangle the correlation between static and temporal information, we generate counterfactual video descriptions that differ from the original one only in the specified temporal aspect. We employ a semi-automatic data collection framework using large language models and human-in-the-loop annotation to obtain high-quality counterfactual descriptions efficiently. Evaluation of representative video-language understanding models confirms their deficiency in temporal understanding, revealing the need for greater emphasis on the temporal elements in video-language research.
- Abstract(参考訳): 時間とともにオブジェクトがどのように変化するかを認識する能力は、人間の知性にとって重要な要素である。
しかし、現在のベンチマークでは静的な視覚的ショートカットが存在するため、ビデオ言語モデル(VidLM)の時間的理解能力を忠実に反映することはできない。
この問題を解決するために、VITATECSという診断用VIdeo-Text dAtasetが提案される。
具体的には、まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。
さらに,静的な情報と時間的情報の相関関係を解消するために,特定の時間的側面においてのみオリジナルと異なる反実的な映像記述を生成する。
我々は,大規模言語モデルとHuman-in-the-loopアノテーションを用いた半自動データ収集フレームワークを用いて,高品質な偽物記述を効率的に取得する。
代表的なビデオ言語理解モデルの評価は、時間的理解の欠如を確認し、ビデオ言語研究における時間的要素をより強調する必要性を明らかにしている。
関連論文リスト
- On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Contrastive Language Video Time Pre-training [12.876308881183371]
本稿では,コントラスト学習による長文ビデオにおける言語,ビデオ,時間表現の新たな学習手法であるLAVITIを紹介する。
我々のモデルは、学習可能なモーメントクエリを用いて、クリップレベルの視覚的特徴、言語的特徴、時間的特徴をデコードする。
本手法をCharadesEgo行動認識に応用し,最先端の結果を得た。
論文 参考訳(メタデータ) (2024-06-04T02:48:59Z) - Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。
そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文 参考訳(メタデータ) (2023-01-05T14:14:36Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。