論文の概要: CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning
- arxiv url: http://arxiv.org/abs/2505.11830v1
- Date: Sat, 17 May 2025 04:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.877914
- Title: CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning
- Title(参考訳): CoT-Vid: トレーニングフリービデオ推論のための自己検証による動的チェーン・オブ・サート・ルーティング
- Authors: Hongbo Jin, Ruyang Liu, Wenhao Zhang, Guibo Luo, Ge Li,
- Abstract要約: CoT-Vidは、多段階の複雑な推論設計を持つビデオドメインのための新しいトレーニング不要のパラダイムである。
幅広いベンチマークで優れた結果を示し、Egochemaでは9.3%、VideoEspressoでは5.6%でベースモデルを上回っている。
- 参考スコア(独自算出の注目度): 19.85076867561363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: System2 reasoning is developing rapidly these days with the emergence of Deep- Thinking Models and chain-of-thought technology, which has become a centralized discussion point in the AI community. However, there is a relative gap in the research on complex video reasoning at present. In this work, we propose CoT-Vid, a novel training-free paradigm for the video domain with a multistage complex reasoning design. Distinguishing from existing video LLMs, which rely heavily on perceptual abilities, it achieved surprising performance gain with explicit reasoning mechanism. The paradigm consists of three main components: dynamic inference path routing, problem decoupling strategy, and video self-consistency verification. In addition, we propose a new standard for categorization of video questions. CoT- Vid showed outstanding results on a wide range of benchmarks, and outperforms its base model by 9.3% on Egochema and 5.6% on VideoEspresso, rivalling or even surpassing larger and proprietary models, such as GPT-4V, GPT-4o and Gemini-1.5-flash. Our codebase will be publicly available soon.
- Abstract(参考訳): システム2推論は、ディープ思考モデルとチェーンオブ思考技術の出現とともに、近年急速に発展しており、AIコミュニティでは集中的な議論ポイントとなっている。
しかし、現在、複雑なビデオ推論の研究には相対的なギャップがある。
本研究では,多段階複雑な推論設計によるビデオドメインのための新しいトレーニングフリーパラダイムであるCoT-Vidを提案する。
知覚能力に大きく依存する既存のビデオLLMから切り離され、明確な推論機構によって驚くほどのパフォーマンス向上を達成した。
このパラダイムは、動的推論パスルーティング、問題分離戦略、ビデオ自己整合性検証の3つの主要コンポーネントで構成されている。
さらに,ビデオ質問の分類のための新しい標準を提案する。
CoT-Vidは幅広いベンチマークで優れた結果を示し、ベースモデルはEgochemaで9.3%、VideoEspressoで5.6%、GPT-4V、GPT-4o、Gemini-1.5-flashといった大規模でプロプライエタリなモデルに匹敵する結果となった。
私たちのコードベースはまもなく公開されます。
関連論文リスト
- V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models [52.97290143922252]
V-ReasonBenchは、4つの主要な次元にわたるビデオ推論を評価するために設計されたベンチマークである。
6つの最先端ビデオモデルの評価は、明らかに次元的な違いを示している。
全体として、V-ReasonBenchは、ビデオ推論を測定する統一的で再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-20T18:59:42Z) - TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models [42.763907973320464]
TiViBench(TiViBench)は、画像対ビデオ(I2V)生成モデルの推論能力を評価するために設計された階層型ベンチマークである。
我々は、好みの最適化にインスパイアされた、シンプルで効果的なテストタイム戦略であるVideoTPOを紹介する。
TiViBenchとVideoTPOは共に、ビデオ生成モデルにおける推論の評価と進歩の道を開いた。
論文 参考訳(メタデータ) (2025-11-17T18:52:44Z) - VIDEOP2R: Video Understanding from Perception to Reasoning [15.617535118661488]
強化微調整(RFT)は,大規模言語モデル(LLM)の推論能力向上に有望な成果を示した。
本稿では,認識と推論を個別のプロセスとしてモデル化することにより,映像の推論を強化する新しいプロセス対応ビデオRFTフレームワークであるVideoP2Rを提案する。
論文 参考訳(メタデータ) (2025-11-14T09:42:42Z) - VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning [60.42623437635971]
ビデオの時間的グラウンドと推論のためのトレーニング不要のフレームワークであるVTimeCoTを紹介する。
提案フレームワークは,プログレッシブバーの新しいビジュアルツールとして,プラグアンドプレイプログレッシブバー統合ツールと高効率ハイライトツールの2つを組み込んでいる。
提案手法は,ビデオ時間的グラウンドリングと推論に基づく質問応答のタスクにおいて,Qwen2VL-7BとGPT4oベースラインの両方で大幅な性能向上を示す。
論文 参考訳(メタデータ) (2025-10-16T13:29:02Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Kwai Keye-VL 1.5 Technical Report [91.07838286692815]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。
まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。
次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。
第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (2025-09-01T15:46:58Z) - CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning [11.478276629279526]
CVBenchは,ビデオ間のリレーショナル推論を厳格に評価するために設計された,最初の総合的なベンチマークである。
CVBenchは、クロスビデオオブジェクトアソシエーション、クロスビデオイベントアソシエーション、クロスビデオ複合推論の3層にまたがる1000の質問応答ペアで構成されている。
5つのドメインの異なるビデオクラスタから構築されたこのベンチマークは、ダイナミックな視覚的コンテキストにまたがる情報を合成するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-08-27T03:29:35Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - ViTCoT: Video-Text Interleaved Chain-of-Thought for Boosting Video Understanding in Large Language Models [50.42183477287337]
ビデオ理解は、高いレベルの認知的推論で低レベルの視覚信号をブリッジする上で重要な役割を担っている。
ビデオテキストインターリーブドCoT(ViTCoT)の新たな推論パラダイムについて紹介する。
従来のテキストのみのCoTパラダイムと比較して,ViTCoTは性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-07-14T03:21:13Z) - Super Encoding Network: Recursive Association of Multi-Modal Encoders for Video Understanding [34.50473981161247]
ビデオ理解は世界モデリングの重要なステップである。
ビデオ理解のための統合スーパーネットワーク(SEN)を提案する。
私たちのSENは、最も代表的な4つのタスクを著しく強化できます。
論文 参考訳(メタデータ) (2025-06-09T09:20:21Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [33.170426237654596]
VIDEORFTは、MLLMで人間のようなビデオ推論能力を育むための新しいアプローチである。
RFTの標準的な2段階のスキームに従う: チェーン・オブ・シント(CoT)アノテーションによる微調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation [32.930999188946345]
本稿では,ビデオ質問応答(VideoQA)の課題に取り組む。
大規模なビデオ言語モデルはベンチマークでよく機能するが、説明可能性や時空間の接地性が欠けていることが多い。
本稿では,自動生成したCoTを命令調整プロセスに組み込むことで,モデルを強化する手法であるAoTDを提案する。
論文 参考訳(メタデータ) (2024-12-02T16:37:50Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。