論文の概要: Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2506.08817v1
- Date: Tue, 10 Jun 2025 14:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.567721
- Title: Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought
- Title(参考訳): Video-CoT: チェーン・オブ・サートに基づくビデオの時空間的理解のための包括的データセット
- Authors: Shuyi Zhang, Xiaoshuai Hao, Yingbo Tang, Lingfeng Zhang, Pengwei Wang, Zhongyuan Wang, Hongxuan Ma, Shanghang Zhang,
- Abstract要約: ビデオ理解は、ビデオ分析からインタラクティブシステムまで、様々な用途に不可欠である。
視覚言語モデルの発展にもかかわらず、これらのモデルはしばしば、微妙で時間的な詳細を捉えるのに苦労する。
これを解決するために、ビデオ理解を強化するために設計された画期的なデータセットであるVideo-Thoughtを紹介した。
- 参考スコア(独自算出の注目度): 19.792159494513424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video content comprehension is essential for various applications, ranging from video analysis to interactive systems. Despite advancements in large-scale vision-language models (VLMs), these models often struggle to capture the nuanced, spatiotemporal details essential for thorough video analysis. To address this gap, we introduce Video-CoT, a groundbreaking dataset designed to enhance spatiotemporal understanding using Chain-of-Thought (CoT) methodologies. Video-CoT contains 192,000 fine-grained spa-tiotemporal question-answer pairs and 23,000 high-quality CoT-annotated samples, providing a solid foundation for evaluating spatiotemporal understanding in video comprehension. Additionally, we provide a comprehensive benchmark for assessing these tasks, with each task featuring 750 images and tailored evaluation metrics. Our extensive experiments reveal that current VLMs face significant challenges in achieving satisfactory performance, high-lighting the difficulties of effective spatiotemporal understanding. Overall, the Video-CoT dataset and benchmark open new avenues for research in multimedia understanding and support future innovations in intelligent systems requiring advanced video analysis capabilities. By making these resources publicly available, we aim to encourage further exploration in this critical area. Project website:https://video-cot.github.io/ .
- Abstract(参考訳): ビデオコンテンツ理解は、ビデオ分析からインタラクティブシステムまで、様々なアプリケーションに不可欠である。
大規模視覚言語モデル(VLM)の進歩にもかかわらず、これらのモデルはしばしば、徹底的なビデオ解析に不可欠な微妙で時空間的な細部を捉えるのに苦労する。
このギャップに対処するために,我々は,Chain-of-Thought(CoT)手法を用いた時空間的理解を高めるために設計された画期的なデータセットであるVideo-CoTを紹介した。
Video-CoTには、192,000の微細な時空間質問応答対と23,000の高品質なCoTアノテーションサンプルが含まれており、ビデオ理解における時空間的理解を評価するための確かな基盤となっている。
さらに、これらのタスクを評価するための総合的なベンチマークを提供し、各タスクには750の画像と調整された評価指標が特徴である。
我々の広範な実験により、現在のVLMは良好な性能を達成する上で大きな課題に直面しており、効果的な時空間的理解の難しさを高く評価している。
全体として、Video-CoTデータセットとベンチマークは、マルチメディア理解の研究のための新たな道を開き、高度なビデオ分析機能を必要とするインテリジェントシステムにおける将来のイノベーションをサポートします。
これらの資源を一般公開することで、我々はこの重要な領域におけるさらなる探索を奨励することを目指している。
プロジェクトウェブサイト:https://video-cot.github.io/
関連論文リスト
- TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos [26.97196583891564]
本稿では,高密度ダイナミックビデオの微粒化理解のための時間指向ベンチマークTUNAを紹介する。
我々のTUNAは様々なビデオシナリオとダイナミックスを備えており、解釈可能で堅牢な評価基準によって支援されている。
この評価は、アクション記述の制限、多目的理解の不十分、カメラモーションに対する感度の低下など、ビデオの時間的理解における重要な課題を明らかにする。
論文 参考訳(メタデータ) (2025-05-26T15:24:06Z) - H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding [25.111988967973147]
既存のビデオ理解評価ベンチマークでは、カバレッジ、タスクの多様性、シーン適応性に大きな制限がある。
本稿では,一般的なビデオとオンラインストリーミングの両方の理解度を評価するために,階層的・全体論的ビデオ理解ベンチマークを提案する。
このベンチマークは、拡張ビデオの長さ、包括的なアセスメントタスク、エンリッチ化ビデオデータという3つの重要な特徴に寄与する。
論文 参考訳(メタデータ) (2025-03-31T12:32:51Z) - DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering [13.466266412068475]
DocVideoQAタスクとデータセットを初めて紹介し、23のカテゴリにわたる1454のビデオを約828時間に分けた。
データセットには、手動およびGPTを介して154kの質問応答ペアがアノテートされ、モデルの理解、時間的認識、モダリティ統合機能を評価する。
提案手法は,多種多様な指導指導データを用いて一助的特徴抽出を強化し,モダリティ統合を強化するためにコントラスト学習を利用する。
論文 参考訳(メタデータ) (2025-03-20T06:21:25Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。