論文の概要: Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
- arxiv url: http://arxiv.org/abs/2510.20579v1
- Date: Thu, 23 Oct 2025 14:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.036966
- Title: Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
- Title(参考訳): Open-o3ビデオ: 露骨な時空間エビデンスによる地上ビデオの推論
- Authors: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang,
- Abstract要約: 我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
- 参考スコア(独自算出の注目度): 70.2803680525165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most video reasoning models only generate textual reasoning traces without indicating when and where key evidence appears. Recent models such as OpenAI-o3 have sparked wide interest in evidence-centered reasoning for images, yet extending this ability to videos is more challenging, as it requires joint temporal tracking and spatial localization across dynamic scenes. We introduce Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal evidence into video reasoning, and carefully collect training data and design training strategies to address the aforementioned challenges. The model highlights key timestamps, objects, and bounding boxes alongside its answers, allowing reasoning to be grounded in concrete visual observations. To enable this functionality, we first curate and build two high-quality datasets, STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed temporal and spatial annotations, since most existing datasets offer either temporal spans for videos or spatial boxes on images, lacking unified spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start reinforcement learning strategy with multiple specially designed rewards that jointly encourage answer accuracy, temporal alignment, and spatial precision. On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance, raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent improvements are also observed on a broad range of video understanding benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond accuracy, the reasoning traces produced by Open-o3 Video also provide valuable signals for test-time scaling, enabling confidence-aware verification and improving answer reliability.
- Abstract(参考訳): ほとんどのビデオ推論モデルは、いつ、どこで重要な証拠が現れるかを示すことなく、テキストによる推論トレースを生成する。
OpenAI-o3のような最近のモデルでは、画像に対するエビデンス中心の推論に広く関心が寄せられているが、この能力をビデオに拡張することはより困難である。
我々は、ビデオ推論に露骨な時空間証拠を統合する非エージェントフレームワークであるOpen-o3 Videoを紹介し、上記の課題に対処するためのトレーニングデータとデザイントレーニング戦略を慎重に収集する。
このモデルでは、応答とともに重要なタイムスタンプ、オブジェクト、バウンディングボックスをハイライトし、推論を具体的な視覚的観察で基礎付けることができる。
この機能を実現するために、我々はまず2つの高品質データセットSTGR-CoT-30k for SFTとSTGR-RL-36k for RLを、時間的および空間的アノテーションを慎重に構築する。
次に,解答精度,時間的アライメント,空間的精度を協調的に促進する,複数の特別に設計された報酬を用いた冷間開始強化学習戦略を採用する。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、Qwen2.5-VLベースラインでmAMを14.4%、mLGMを24.2%向上させた。
VideoMME、WorldSense、VideoMMMU、TVGBenchなど、幅広いビデオ理解ベンチマークでも、一貫性のある改善が観察されている。
Open-o3 Videoが生成した推論トレースは、正確性以外にも、テストタイムのスケーリングに有用なシグナルを提供し、信頼性を認識した検証を可能にし、回答の信頼性を向上させる。
関連論文リスト
- VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos [44.23732277782877]
長時間の理解では、一様フレームサンプリングはしばしば重要な視覚的証拠を捉えず、性能が低下し幻覚が増大する。
最近のエージェント思考とビデオのパラダイムが出現し、ローカライズ・クリップ・アンサー・パイプラインが採用されている。
我々は,ビデオグラウンドと質問応答を共同でモデル化する統合型エージェント思考・ビデオフレームワークであるVideoTemp-o3を提案する。
論文 参考訳(メタデータ) (2026-02-08T03:45:50Z) - MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence [61.065486539729875]
MMSI-Video-Bench(MMSI-Video-Bench)は、MLLMにおけるビデオベースの空間知能の完全な人為的なベンチマークである。
4段階のフレームワークである知覚、計画、予測、クロスビデオ推論を運用しており、1,278のクリップで1,106の質問を下敷きにしている。
オープンソースとプロプライエタリなMLLMを25種類評価し,AIギャップが顕著であることを明らかにした。
論文 参考訳(メタデータ) (2025-12-11T17:57:24Z) - Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reasoning [18.15310805625469]
マルチモーダルビデオ言語モデル(Video-LMs)を評価するための新しいベンチマークであるKnow-Showを提案する。
Know-Showは、空間的(人、物、人、物)と時間的次元の5つのシナリオからなる単一の評価枠組み内での推論と局所化を統一する。
Charades、Action Genome、Ego4Dから2.5万の人間の言語質問で作られたこのベンチマークは、現在のビデオ-LMと人間の推論の間に大きなギャップを露呈している。
このギャップを埋めるために、我々は、きめ細かい接地でビデオ-LMを増強するトレーニング不要なプラグインであるGRAMを提案する。
論文 参考訳(メタデータ) (2025-12-05T08:15:49Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding [12.410012029024342]
我々は,3つの重要なイノベーションを導入することで,制限を克服するビデオLLMであるGrounded VideoDiTを紹介する。
第一に、拡散時間遅延(DTL)エンコーダは境界感度を高め、時間的一貫性を維持する。
第二に、オブジェクト基底表現は、クエリエンティティを局所化された視覚的エビデンスに明示的に結合し、アライメントを強化する。
第三に、離散時間的タイムスタンプトークンを持つ混合トークンスキームは明示的なモデリングを提供し、きめ細かい時間的推論を可能にする。
論文 参考訳(メタデータ) (2025-08-21T15:12:14Z) - Emergent Temporal Correspondences from Video Diffusion Transformers [30.83001895223298]
DiffTrackは、この問題に答えるために設計された最初の定量的分析フレームワークである。
分析の結果,特定のクエリキーの類似性がすべてではないが,時間的マッチングにおいて重要な役割を担っていることが明らかとなった。
本研究は,映像の時間的整合性を改善する新たなガイダンス法により,動画の動作向上に拡張する。
論文 参考訳(メタデータ) (2025-06-20T17:59:55Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。