論文の概要: VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
- arxiv url: http://arxiv.org/abs/2602.07801v1
- Date: Sun, 08 Feb 2026 03:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.808327
- Title: VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
- Title(参考訳): VideoTemp-o3: エージェント思考における時間的グラウンドとビデオ理解の調和
- Authors: Wenqi Liu, Yunxiao Wang, Shijie Ma, Meng Liu, Qile Su, Tianke Zhang, Haonan Fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Yinwei Wei, Xuemeng Song,
- Abstract要約: 長時間の理解では、一様フレームサンプリングはしばしば重要な視覚的証拠を捉えず、性能が低下し幻覚が増大する。
最近のエージェント思考とビデオのパラダイムが出現し、ローカライズ・クリップ・アンサー・パイプラインが採用されている。
我々は,ビデオグラウンドと質問応答を共同でモデル化する統合型エージェント思考・ビデオフレームワークであるVideoTemp-o3を提案する。
- 参考スコア(独自算出の注目度): 44.23732277782877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In long-video understanding, conventional uniform frame sampling often fails to capture key visual evidence, leading to degraded performance and increased hallucinations. To address this, recent agentic thinking-with-videos paradigms have emerged, adopting a localize-clip-answer pipeline in which the model actively identifies relevant video segments, performs dense sampling within those clips, and then produces answers. However, existing methods remain inefficient, suffer from weak localization, and adhere to rigid workflows. To solve these issues, we propose VideoTemp-o3, a unified agentic thinking-with-videos framework that jointly models video grounding and question answering. VideoTemp-o3 exhibits strong localization capability, supports on-demand clipping, and can refine inaccurate localizations. Specifically, in the supervised fine-tuning stage, we design a unified masking mechanism that encourages exploration while preventing noise. For reinforcement learning, we introduce dedicated rewards to mitigate reward hacking. Besides, from the data perspective, we develop an effective pipeline to construct high-quality long video grounded QA data, along with a corresponding benchmark for systematic evaluation across various video durations. Experimental results demonstrate that our method achieves remarkable performance on both long video understanding and grounding.
- Abstract(参考訳): 長いビデオ理解において、従来の一様フレームサンプリングはしばしば重要な視覚的証拠を捉えず、性能が劣化し幻覚が増大する。
これを解決するために、最近のエージェント思考とビデオのパラダイムが登場し、モデルが関連ビデオセグメントを積極的に識別するローカライズ・クリップ・アンサーパイプラインを採用し、それらのクリップ内で密集サンプリングを行い、回答を生成する。
しかし、既存の手法は依然として非効率であり、ローカライゼーションの弱さに悩まされ、厳密なワークフローに固執する。
これらの問題を解決するために,ビデオグラウンドと質問応答を共同でモデル化する統合型エージェント思考フレームワークであるVideoTemp-o3を提案する。
VideoTemp-o3は強力なローカライゼーション機能を持ち、オンデマンドクリッピングをサポートし、不正確なローカライゼーションを洗練できる。
具体的には、教師付き微調整段階において、ノイズを防止しながら探索を促進する統一マスキング機構を設計する。
強化学習には、報酬ハッキングを緩和する専用の報酬を導入する。
さらに,データの観点からは,高品質な長大映像基調QAデータを構築するための効果的なパイプラインを構築し,様々なビデオ期間の体系的評価を行うためのベンチマークを作成した。
実験により,本手法は長時間の映像理解とグラウンドディングの両方において顕著な性能を発揮することが示された。
関連論文リスト
- Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - Emergent Temporal Correspondences from Video Diffusion Transformers [30.83001895223298]
DiffTrackは、この問題に答えるために設計された最初の定量的分析フレームワークである。
分析の結果,特定のクエリキーの類似性がすべてではないが,時間的マッチングにおいて重要な役割を担っていることが明らかとなった。
本研究は,映像の時間的整合性を改善する新たなガイダンス法により,動画の動作向上に拡張する。
論文 参考訳(メタデータ) (2025-06-20T17:59:55Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。