論文の概要: Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
- arxiv url: http://arxiv.org/abs/2510.20579v1
- Date: Thu, 23 Oct 2025 14:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.036966
- Title: Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
- Title(参考訳): Open-o3ビデオ: 露骨な時空間エビデンスによる地上ビデオの推論
- Authors: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang,
- Abstract要約: 我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
- 参考スコア(独自算出の注目度): 70.2803680525165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most video reasoning models only generate textual reasoning traces without indicating when and where key evidence appears. Recent models such as OpenAI-o3 have sparked wide interest in evidence-centered reasoning for images, yet extending this ability to videos is more challenging, as it requires joint temporal tracking and spatial localization across dynamic scenes. We introduce Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal evidence into video reasoning, and carefully collect training data and design training strategies to address the aforementioned challenges. The model highlights key timestamps, objects, and bounding boxes alongside its answers, allowing reasoning to be grounded in concrete visual observations. To enable this functionality, we first curate and build two high-quality datasets, STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed temporal and spatial annotations, since most existing datasets offer either temporal spans for videos or spatial boxes on images, lacking unified spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start reinforcement learning strategy with multiple specially designed rewards that jointly encourage answer accuracy, temporal alignment, and spatial precision. On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance, raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent improvements are also observed on a broad range of video understanding benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond accuracy, the reasoning traces produced by Open-o3 Video also provide valuable signals for test-time scaling, enabling confidence-aware verification and improving answer reliability.
- Abstract(参考訳): ほとんどのビデオ推論モデルは、いつ、どこで重要な証拠が現れるかを示すことなく、テキストによる推論トレースを生成する。
OpenAI-o3のような最近のモデルでは、画像に対するエビデンス中心の推論に広く関心が寄せられているが、この能力をビデオに拡張することはより困難である。
我々は、ビデオ推論に露骨な時空間証拠を統合する非エージェントフレームワークであるOpen-o3 Videoを紹介し、上記の課題に対処するためのトレーニングデータとデザイントレーニング戦略を慎重に収集する。
このモデルでは、応答とともに重要なタイムスタンプ、オブジェクト、バウンディングボックスをハイライトし、推論を具体的な視覚的観察で基礎付けることができる。
この機能を実現するために、我々はまず2つの高品質データセットSTGR-CoT-30k for SFTとSTGR-RL-36k for RLを、時間的および空間的アノテーションを慎重に構築する。
次に,解答精度,時間的アライメント,空間的精度を協調的に促進する,複数の特別に設計された報酬を用いた冷間開始強化学習戦略を採用する。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、Qwen2.5-VLベースラインでmAMを14.4%、mLGMを24.2%向上させた。
VideoMME、WorldSense、VideoMMMU、TVGBenchなど、幅広いビデオ理解ベンチマークでも、一貫性のある改善が観察されている。
Open-o3 Videoが生成した推論トレースは、正確性以外にも、テストタイムのスケーリングに有用なシグナルを提供し、信頼性を認識した検証を可能にし、回答の信頼性を向上させる。
関連論文リスト
- Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding [12.410012029024342]
我々は,3つの重要なイノベーションを導入することで,制限を克服するビデオLLMであるGrounded VideoDiTを紹介する。
第一に、拡散時間遅延(DTL)エンコーダは境界感度を高め、時間的一貫性を維持する。
第二に、オブジェクト基底表現は、クエリエンティティを局所化された視覚的エビデンスに明示的に結合し、アライメントを強化する。
第三に、離散時間的タイムスタンプトークンを持つ混合トークンスキームは明示的なモデリングを提供し、きめ細かい時間的推論を可能にする。
論文 参考訳(メタデータ) (2025-08-21T15:12:14Z) - Emergent Temporal Correspondences from Video Diffusion Transformers [30.83001895223298]
DiffTrackは、この問題に答えるために設計された最初の定量的分析フレームワークである。
分析の結果,特定のクエリキーの類似性がすべてではないが,時間的マッチングにおいて重要な役割を担っていることが明らかとなった。
本研究は,映像の時間的整合性を改善する新たなガイダンス法により,動画の動作向上に拡張する。
論文 参考訳(メタデータ) (2025-06-20T17:59:55Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。