論文の概要: CoTasks: Chain-of-Thought based Video Instruction Tuning Tasks
- arxiv url: http://arxiv.org/abs/2507.13609v1
- Date: Fri, 18 Jul 2025 02:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.170221
- Title: CoTasks: Chain-of-Thought based Video Instruction Tuning Tasks
- Title(参考訳): CoTasks:Chain-of-Thoughtベースのビデオインストラクションチューニングタスク
- Authors: Yanan Wang, Julio Vizcarra, Zhi Li, Hao Niu, Mori Kurokawa,
- Abstract要約: CoTasks: Chain-of-thinkt based Video Instruction Tuning Tasksを提案する。
CoTasksは複雑なビデオ質問を4つのエンティティレベルの基礎タスクに分解する。
NeXT-QAベンチマークの実験により、CoTasksはビデオ推論性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 6.805764672100456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in video large language models (VideoLLMs), a key open challenge remains: how to equip models with chain-of-thought (CoT) reasoning abilities grounded in fine-grained object-level video understanding. Existing instruction-tuned models, such as the Qwen and LLaVA series, are trained on high-level video-text pairs, often lacking structured annotations necessary for compositional, step-by-step reasoning. We propose CoTasks: Chain-of-Thought based Video Instruction Tuning Tasks, a new framework that decomposes complex video questions of existing datasets (e.g., NeXT-QA, STAR) into four entity-level foundational tasks: frame localization, entity tracking, spatial and temporal relation extraction. By embedding these intermediate CoT-style reasoning steps into the input, CoTasks enables models to explicitly perform object-centric spatiotemporal reasoning. Experiments on the NeXT-QA benchmark show that CoTasks significantly enhance inference performance: LLaVA-video-7B improves by +3.3 points in average GPT-4 evaluation score, and Qwen2.5-VL-3B gains +17.4, with large boosts in causal (+14.6), temporal (+10.9), and descriptive (+48.1) subcategories. These results demonstrate the effectiveness of CoTasks as a structured CoT-style supervision framework for improving compositional video reasoning.
- Abstract(参考訳): ビデオ大言語モデル(VideoLLMs)の最近の進歩にもかかわらず、重要なオープンな課題は、どのようにモデルにチェーン・オブ・プリート(CoT)推論能力を持たせるかである。
QwenシリーズやLLaVAシリーズのような既存の命令調整モデルは、高レベルのビデオテキストペアで訓練されており、しばしば構成的、ステップバイステップの推論に必要な構造化アノテーションを欠いている。
CoTasks: Chain-of-Thought based Video Instruction Tuning Tasks – 既存のデータセット(例えばNeXT-QA, STAR)の複雑なビデオ質問を,フレームローカライゼーション,エンティティトラッキング,空間的および時間的関係抽出という,エンティティレベルの4つの基本タスクに分解する新しいフレームワークを提案する。
これらの中間的なCoTスタイルの推論ステップを入力に埋め込むことで、CoTasksはモデルがオブジェクト中心の時空間推論を明示的に実行できるようにする。
LLaVA-video-7Bは平均GPT-4評価スコアで+3.3ポイント向上し、Qwen2.5-VL-3Bは+17.4となり、因果(+14.6)、時間(+10.9)、記述(+48.1)が大幅に向上した。
これらの結果から,CoTスタイルの監視フレームワークとしてのCoTasksの有効性が示唆された。
関連論文リスト
- Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning [63.4357918830628]
Video-Skill-CoT (別名 Video-SKoT) は、ドメイン適応型ビデオ推論のためのスキル対応CoT監視を自動構築し活用するフレームワークである。
まず、スキルベースのCoTアノテーションを構築し、それらを共有スキル分類に分類し、トレーニング用に各ビデオ検索ペアに合わせて、詳細なマルチステップのCoT論理を作成する。
第二に、スキル固有のエキスパート学習フレームワークを導入し、各エキスパートモジュールは推論スキルのサブセットを専門とし、軽量なアダプタで訓練する。
論文 参考訳(メタデータ) (2025-06-04T03:18:01Z) - InstructionBench: An Instructional Video Understanding Benchmark [14.71613140347162]
InstructionBenchはインストラクショナルビデオ理解ベンチマークである。
我々は、粗いイベントレベルと細かなオブジェクトレベルの推論の両方を評価するために、オープンエンドおよび複数選択形式のQ&Aペアを定式化する。
このベンチマークには、700本以上のビデオに5Kの質問が含まれている。
論文 参考訳(メタデータ) (2025-04-07T13:05:09Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。