論文の概要: Video-CoM: Interactive Video Reasoning via Chain of Manipulations
- arxiv url: http://arxiv.org/abs/2511.23477v1
- Date: Fri, 28 Nov 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.040305
- Title: Video-CoM: Interactive Video Reasoning via Chain of Manipulations
- Title(参考訳): Video-CoM: 操作の連鎖による対話型ビデオ推論
- Authors: Hanoona Rasheed, Mohammed Zumri, Muhammad Maaz, Ming-Hsuan Yang, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: Interactive Video Reasoningを導入し、モデルが「ビデオについて考える」ことができるようにします。
当社のモデルである Video CoM は,CoM (Chain of Manipulations) を介し,証拠を収集・精査するための反復的な視覚行動を行う。
Video CoMは9つのビデオ推論ベンチマークで強い結果を出し、最近のアートモデルと比べて平均性能を3.6%向上させた。
- 参考スコア(独自算出の注目度): 78.64256470920166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) have advanced video understanding, yet most still "think about videos" ie once a video is encoded, reasoning unfolds entirely in text, treating visual input as a static context. This passive paradigm creates a semantic bottleneck: models cannot rewatch, refocus, or verify evidence, leading to shallow visual reasoning on tasks requiring fine grained spatio temporal understanding. In this work, we introduce Interactive Video Reasoning, a new paradigm that transforms video into an active cognitive workspace, enabling models to "think with videos". Our model, Video CoM, reasons through a Chain of Manipulations (CoM), performing iterative visual actions to gather and refine evidence. To support this behavior, we construct Video CoM Instruct, an 18K instruction tuning dataset curated for multi step manipulation reasoning. Beyond supervised learning, we further optimize the manipulation policy via reinforcement learning with reasoning aware Group Relative Policy Optimization (GRPO). Unlike prior work that relies solely on sparse answer rewards, our method introduces step level reasoning rewards, guiding the model toward grounded and consistent reasoning. Video CoM achieves strong results across nine video reasoning benchmarks, improving average performance by 3.6 percent over recent state of the art models, while training on only 25K SFT and 3K GRPO video samples, significantly fewer than comparable large scale models. Ablation studies demonstrate that reasoning aware rewards improve both accuracy and interpretability. Code: https://github.com/mbzuai-oryx/Video-CoM
- Abstract(参考訳): 最近のMLLM(Multimodal large language model)は、ビデオの理解が進んでいるが、ビデオがエンコードされると「ビデオについて考える」ため、完全にテキストで展開され、視覚入力を静的な文脈として扱う。
この受動的パラダイムはセマンティックなボトルネックを生み出します – モデルは証拠を見直したり、再焦点したり、検証することはできず、微妙な時空間的理解を必要とするタスクに対する浅い視覚的推論につながります。
本研究では,映像をアクティブな認知ワークスペースに変換する新たなパラダイムであるInteractive Video Reasoningを紹介する。
当社のモデルである Video CoM は,CoM (Chain of Manipulations) を介し,証拠を収集・精査するための反復的な視覚行動を行う。
この動作を支援するために,マルチステップ操作推論のための18K命令チューニングデータセットであるVideo CoM Instructを構築した。
教師付き学習以外にも,グループ相対的政策最適化(GRPO)を意識した強化学習による操作ポリシーをさらに最適化する。
疎解報酬のみに依存する従来の作業とは違い,本手法では段階的推論報酬を導入し,基礎的かつ一貫した推論に向けてモデルを導く。
Video CoMは9つのビデオ推論ベンチマークで強い結果を出し、最近の最先端モデルよりも平均性能を3.6%向上させ、同時に25K SFTと3K GRPOのビデオサンプルのみをトレーニングした。
アブレーション研究は、推論を意識した報酬は正確性と解釈可能性の両方を改善することを示した。
コード:https://github.com/mbzuai-oryx/Video-CoM
関連論文リスト
- LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.30445183793871]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文 参考訳(メタデータ) (2025-11-25T19:22:48Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning [37.86612817818566]
そこで本稿では,関連ビデオフレームに推論ステップを接頭し,明示的に参照するビデオLLMを提案する。
我々のアプローチはシンプルで自己完結型であり、ビデオCoTの既存のアプローチとは異なり、関連するフレームを選択またはキャプションするために補助的なネットワークを必要としない。
これにより、複数のビデオ理解ベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-05-31T00:08:21Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - ReasVQA: Advancing VideoQA with Imperfect Reasoning Process [38.4638171723351]
textbfReasVQA (Reasoning-enhanced Video Question Answering) は、MLLM(Multimodal Large Language Models)が生成する推論プロセスを活用して、ビデオQAモデルの性能を向上させる新しい手法である。
NExT-QAでは+2.9、STARでは+7.3、IntentQAでは+5.9が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T10:35:22Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。