論文の概要: Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning
- arxiv url: http://arxiv.org/abs/2601.23224v1
- Date: Fri, 30 Jan 2026 17:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.594966
- Title: Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning
- Title(参考訳): Video-o3: 長時間のマルチホップ推論のためのネイティブインターリーブクローズ
- Authors: Xiangyu Zeng, Zhiqiu Zhang, Yuhan Zhu, Xinhao Li, Zikang Wang, Changlian Ma, Qingyu Zhang, Zizheng Huang, Kun Ouyang, Tianxiang Jiang, Ziang Yan, Yi Wang, Hongjie Zhang, Yali Wang, Limin Wang,
- Abstract要約: Video-o3は、優れた視覚的手がかりの反復的な発見をサポートする新しいフレームワークである。
Video-o3は最先端の手法を大幅に上回り、MLVUでは72.1%、Video-Holmesでは46.5%の精度を達成している。
- 参考スコア(独自算出の注目度): 28.87800134659646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multimodal large language models for long-video understanding predominantly rely on uniform sampling and single-turn inference, limiting their ability to identify sparse yet critical evidence amid extensive redundancy. We introduce Video-o3, a novel framework that supports iterative discovery of salient visual clues, fine-grained inspection of key segments, and adaptive termination once sufficient evidence is acquired. Technically, we address two core challenges in interleaved tool invocation. First, to mitigate attention dispersion induced by the heterogeneity of reasoning and tool-calling, we propose Task-Decoupled Attention Masking, which isolates per-step concentration while preserving shared global context. Second, to control context length growth in multi-turn interactions, we introduce a Verifiable Trajectory-Guided Reward that balances exploration coverage with reasoning efficiency. To support training at scale, we further develop a data synthesis pipeline and construct Seeker-173K, comprising 173K high-quality tool-interaction trajectories for effective supervised and reinforcement learning. Extensive experiments show that Video-o3 substantially outperforms state-of-the-art methods, achieving 72.1% accuracy on MLVU and 46.5% on Video-Holmes. These results demonstrate Video-o3's strong multi-hop evidence-seeking and reasoning capabilities, and validate the effectiveness of native tool invocation in long-video scenarios.
- Abstract(参考訳): 長いビデオ理解のための既存のマルチモーダルな大規模言語モデルは、主に一様サンプリングとシングルターン推論に依存しており、広範囲な冗長性の中でスパースで重要な証拠を識別する能力を制限する。
本稿では,視覚的手掛かりの反復的発見,キーセグメントのきめ細かい検査,十分な証拠が得られれば適応的終了をサポートする新しいフレームワークであるVideo-o3を紹介する。
技術的には、インターリーブドツール呼び出しにおける2つの課題に対処する。
まず、推論とツールコールの不均一性によって引き起こされる注意分散を軽減するために、グローバルコンテキストの共有を保ちながらステップごとの集中を分離するタスク分離型注意マスキングを提案する。
第二に、マルチターン相互作用における文脈長成長を制御するために、探索カバレッジと推論効率のバランスをとる検証軌道誘導逆流を導入する。
大規模学習を支援するため,データ合成パイプラインをさらに発展させ,効果的な教師付き・強化学習のための173Kの高品質ツール・インタラクション・トラジェクトリを含むSeeker-173Kを構築した。
大規模な実験により、Vo-o3は最先端の手法を大幅に上回り、MLVUでは72.1%、Vo-Holmesでは46.5%の精度を達成している。
これらの結果は、Video-o3の強力なマルチホップエビデンス検索と推論能力を示し、長ビデオシナリオにおけるネイティブツールの実行の有効性を検証する。
関連論文リスト
- LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文 参考訳(メタデータ) (2025-11-25T19:22:48Z) - Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - An Empirical Study on How Video-LLMs Answer Video Questions [41.97630658989303]
Video Large Language Models (Video-LLMs) は、ビデオ質問に答える強力な機能を示している。
私たちの知る限り、ビデオ-LLMが内部でどのように処理し、ビデオコンテンツを理解するかを体系的に明らかにしたのは、これが初めてです。
論文 参考訳(メタデータ) (2025-08-21T08:42:35Z) - VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering [14.039561301034848]
ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。
我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。
提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
論文 参考訳(メタデータ) (2025-08-05T03:33:24Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。