Fugu-MT 論文翻訳(概要): VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models

論文の概要: VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models

arxiv url: http://arxiv.org/abs/2311.17404v1
Date: Wed, 29 Nov 2023 07:15:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 22:16:19.388443
Title: VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models
Title（参考訳）: VITATECS:ビデオ言語モデルの時間的概念理解のための診断データセット
Authors: Shicheng Li, Lei Li, Shuhuai Ren, Yuanxin Liu, Yi Liu, Rundong Gao, Xu Sun, Lu Hou
Abstract要約: VITATECS, 診断用VIdeo-Text dAtasetについて述べる。まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。特定の時間的側面においてのみ、オリジナルと異なる反実的な映像記述を生成する。
参考スコア（独自算出の注目度）: 28.455280591607686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to perceive how objects change over time is a crucial ingredient in human intelligence. However, current benchmarks cannot faithfully reflect the temporal understanding abilities of video-language models (VidLMs) due to the existence of static visual shortcuts. To remedy this issue, we present VITATECS, a diagnostic VIdeo-Text dAtaset for the evaluation of TEmporal Concept underStanding. Specifically, we first introduce a fine-grained taxonomy of temporal concepts in natural language in order to diagnose the capability of VidLMs to comprehend different temporal aspects. Furthermore, to disentangle the correlation between static and temporal information, we generate counterfactual video descriptions that differ from the original one only in the specified temporal aspect. We employ a semi-automatic data collection framework using large language models and human-in-the-loop annotation to obtain high-quality counterfactual descriptions efficiently. Evaluation of representative video-language understanding models confirms their deficiency in temporal understanding, revealing the need for greater emphasis on the temporal elements in video-language research.
Abstract（参考訳）: 時間とともにオブジェクトがどのように変化するかを認識する能力は、人間の知性にとって重要な要素である。しかし,現在のベンチマークでは,映像言語モデル (vidlms) の時間的理解能力は,静的な視覚ショートカットの存在により忠実に反映できない。そこで本稿では,時間的概念理解を評価するための診断用ビデオテキストデータセットであるvitatecsを提案する。具体的には,まず自然言語における時間概念のきめ細かい分類法を導入し,異なる時間的側面を理解する vidlm の能力について診断する。さらに,静的な情報と時間的情報の相関関係を解消するために,特定の時間的側面においてのみオリジナルと異なる反実的な映像記述を生成する。我々は,大規模言語モデルとHuman-in-the-loopアノテーションを用いた半自動データ収集フレームワークを用いて,高品質な偽物記述を効率的に取得する。代表的なビデオ言語理解モデルの評価は、時間的理解の欠如を確認し、ビデオ言語研究における時間的要素をより強調する必要性を明らかにする。

関連論文リスト

Priors in Time: Missing Inductive Biases for Language Model Interpretability [58.07412640266836]
スパースオートエンコーダは、時間とともに概念の独立を前提としており、定常性を暗示している。本稿では,時間的帰納バイアスを持つ新たな解釈可能性目標である時間的特徴分析を導入し,その表現を2つの部分に分解する。私たちの結果は、堅牢な解釈可能性ツールの設計において、データにマッチする帰納的バイアスの必要性を浮き彫りにしています。
論文参考訳（メタデータ） (2025-11-03T18:43:48Z)
Temporal-Oriented Recipe for Transferring Large Vision-Language Model to Video Understanding [26.932018092345192]
我々は,LVLMの時間的理解に影響を及ぼす重要な構成要素を解明するために,徹底的な実証的研究を行っている。これらの知見に基づいて、時間指向のトレーニングスキームと大規模インタフェースを含む時間指向のレシピを提案する。
論文参考訳（メタデータ） (2025-05-19T01:40:25Z)
Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。 VidSitu データセット上での TSADP の評価を行った。我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文参考訳（メタデータ） (2024-12-16T02:37:58Z)
Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey [23.514029232902953]
本稿では,RS-STVLMの総合的なレビューを行う。本稿では, 変更キャプション, 変更質問, 回答キャプション, 変更グラウンドなど, 代表課題の進捗状況について論じる。遠隔センシングのための視覚言語理解における現在の成果と将来的な研究の方向性を照らすことを目的としている。
論文参考訳（メタデータ） (2024-12-03T16:56:10Z)
On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文参考訳（メタデータ） (2024-11-20T00:47:17Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。 LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文参考訳（メタデータ） (2024-10-08T16:10:29Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Contrastive Language Video Time Pre-training [12.876308881183371]
本稿では,コントラスト学習による長文ビデオにおける言語,ビデオ,時間表現の新たな学習手法であるLAVITIを紹介する。我々のモデルは、学習可能なモーメントクエリを用いて、クリップレベルの視覚的特徴、言語的特徴、時間的特徴をデコードする。本手法をCharadesEgo行動認識に応用し,最先端の結果を得た。
論文参考訳（メタデータ） (2024-06-04T02:48:59Z)
Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文参考訳（メタデータ） (2023-01-05T14:14:36Z)
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。 15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文参考訳（メタデータ） (2022-12-30T04:27:01Z)
Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。 ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文参考訳（メタデータ） (2022-06-03T17:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。