論文の概要: VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of
Video-Language Models
- arxiv url: http://arxiv.org/abs/2311.17404v1
- Date: Wed, 29 Nov 2023 07:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:16:19.388443
- Title: VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of
Video-Language Models
- Title(参考訳): VITATECS:ビデオ言語モデルの時間的概念理解のための診断データセット
- Authors: Shicheng Li, Lei Li, Shuhuai Ren, Yuanxin Liu, Yi Liu, Rundong Gao, Xu
Sun, Lu Hou
- Abstract要約: VITATECS, 診断用VIdeo-Text dAtasetについて述べる。
まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。
特定の時間的側面においてのみ、オリジナルと異なる反実的な映像記述を生成する。
- 参考スコア(独自算出の注目度): 28.455280591607686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perceive how objects change over time is a crucial ingredient
in human intelligence. However, current benchmarks cannot faithfully reflect
the temporal understanding abilities of video-language models (VidLMs) due to
the existence of static visual shortcuts. To remedy this issue, we present
VITATECS, a diagnostic VIdeo-Text dAtaset for the evaluation of TEmporal
Concept underStanding. Specifically, we first introduce a fine-grained taxonomy
of temporal concepts in natural language in order to diagnose the capability of
VidLMs to comprehend different temporal aspects. Furthermore, to disentangle
the correlation between static and temporal information, we generate
counterfactual video descriptions that differ from the original one only in the
specified temporal aspect. We employ a semi-automatic data collection framework
using large language models and human-in-the-loop annotation to obtain
high-quality counterfactual descriptions efficiently. Evaluation of
representative video-language understanding models confirms their deficiency in
temporal understanding, revealing the need for greater emphasis on the temporal
elements in video-language research.
- Abstract(参考訳): 時間とともにオブジェクトがどのように変化するかを認識する能力は、人間の知性にとって重要な要素である。
しかし,現在のベンチマークでは,映像言語モデル (vidlms) の時間的理解能力は,静的な視覚ショートカットの存在により忠実に反映できない。
そこで本稿では,時間的概念理解を評価するための診断用ビデオテキストデータセットであるvitatecsを提案する。
具体的には,まず自然言語における時間概念のきめ細かい分類法を導入し,異なる時間的側面を理解する vidlm の能力について診断する。
さらに,静的な情報と時間的情報の相関関係を解消するために,特定の時間的側面においてのみオリジナルと異なる反実的な映像記述を生成する。
我々は,大規模言語モデルとHuman-in-the-loopアノテーションを用いた半自動データ収集フレームワークを用いて,高品質な偽物記述を効率的に取得する。
代表的なビデオ言語理解モデルの評価は、時間的理解の欠如を確認し、ビデオ言語研究における時間的要素をより強調する必要性を明らかにする。
関連論文リスト
- LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form
Video-Text Understanding [48.83009641950664]
言語誘導型空間確率学習(LSTP)という新しい手法を導入する。
このアプローチでは、時間的情報を利用して関連ビデオコンテンツを効率的に抽出する光フローを予め備えた時間的プロンプトサンプリング(TPS)と、視覚的要素とテキスト的要素間の複雑な空間関係を正確にキャプチャする空間的プロンプトソルバ(SPS)の2つの重要なコンポーネントを特徴とする。
TPSとSPSを協調学習戦略で調和させることで, 計算効率, 時間的理解, 時空間的アライメントを著しく向上させる。
論文 参考訳(メタデータ) (2024-02-25T10:27:46Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。
そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文 参考訳(メタデータ) (2023-01-05T14:14:36Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - The Elements of Temporal Sentence Grounding in Videos: A Survey and
Future Directions [60.54191298092136]
ビデオの時間文グラウンド(TSGV)は、意味不明のビデオから言語クエリに対応する時間モーメントを検索することを目的としている。
本調査では,TSGVの基本概念と今後の研究方向性について概説する。
論文 参考訳(メタデータ) (2022-01-20T09:10:20Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。