論文の概要: CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning
- arxiv url: http://arxiv.org/abs/2505.11830v1
- Date: Sat, 17 May 2025 04:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.877914
- Title: CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning
- Title(参考訳): CoT-Vid: トレーニングフリービデオ推論のための自己検証による動的チェーン・オブ・サート・ルーティング
- Authors: Hongbo Jin, Ruyang Liu, Wenhao Zhang, Guibo Luo, Ge Li,
- Abstract要約: CoT-Vidは、多段階の複雑な推論設計を持つビデオドメインのための新しいトレーニング不要のパラダイムである。
幅広いベンチマークで優れた結果を示し、Egochemaでは9.3%、VideoEspressoでは5.6%でベースモデルを上回っている。
- 参考スコア(独自算出の注目度): 19.85076867561363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: System2 reasoning is developing rapidly these days with the emergence of Deep- Thinking Models and chain-of-thought technology, which has become a centralized discussion point in the AI community. However, there is a relative gap in the research on complex video reasoning at present. In this work, we propose CoT-Vid, a novel training-free paradigm for the video domain with a multistage complex reasoning design. Distinguishing from existing video LLMs, which rely heavily on perceptual abilities, it achieved surprising performance gain with explicit reasoning mechanism. The paradigm consists of three main components: dynamic inference path routing, problem decoupling strategy, and video self-consistency verification. In addition, we propose a new standard for categorization of video questions. CoT- Vid showed outstanding results on a wide range of benchmarks, and outperforms its base model by 9.3% on Egochema and 5.6% on VideoEspresso, rivalling or even surpassing larger and proprietary models, such as GPT-4V, GPT-4o and Gemini-1.5-flash. Our codebase will be publicly available soon.
- Abstract(参考訳): システム2推論は、ディープ思考モデルとチェーンオブ思考技術の出現とともに、近年急速に発展しており、AIコミュニティでは集中的な議論ポイントとなっている。
しかし、現在、複雑なビデオ推論の研究には相対的なギャップがある。
本研究では,多段階複雑な推論設計によるビデオドメインのための新しいトレーニングフリーパラダイムであるCoT-Vidを提案する。
知覚能力に大きく依存する既存のビデオLLMから切り離され、明確な推論機構によって驚くほどのパフォーマンス向上を達成した。
このパラダイムは、動的推論パスルーティング、問題分離戦略、ビデオ自己整合性検証の3つの主要コンポーネントで構成されている。
さらに,ビデオ質問の分類のための新しい標準を提案する。
CoT-Vidは幅広いベンチマークで優れた結果を示し、ベースモデルはEgochemaで9.3%、VideoEspressoで5.6%、GPT-4V、GPT-4o、Gemini-1.5-flashといった大規模でプロプライエタリなモデルに匹敵する結果となった。
私たちのコードベースはまもなく公開されます。
関連論文リスト
- VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [33.170426237654596]
VIDEORFTは、MLLMで人間のようなビデオ推論能力を育むための新しいアプローチである。
RFTの標準的な2段階のスキームに従う: チェーン・オブ・シント(CoT)アノテーションによる微調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation [32.930999188946345]
本稿では,ビデオ質問応答(VideoQA)の課題に取り組む。
大規模なビデオ言語モデルはベンチマークでよく機能するが、説明可能性や時空間の接地性が欠けていることが多い。
本稿では,自動生成したCoTを命令調整プロセスに組み込むことで,モデルを強化する手法であるAoTDを提案する。
論文 参考訳(メタデータ) (2024-12-02T16:37:50Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。