論文の概要: Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search
- arxiv url: http://arxiv.org/abs/2509.07969v1
- Date: Tue, 09 Sep 2025 17:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.432917
- Title: Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search
- Title(参考訳): Mini-o3:ビジュアル検索のための推論パターンとインタラクションターンのスケールアップ
- Authors: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao,
- Abstract要約: Mini-o3は、数十ステップにわたる深いマルチターン推論を実行するシステムである。
OpenAI o3スタイルの動作を再現するためのレシピは、3つのキーコンポーネントから構成される。
大規模な実験により、Mini-o3は豊かな推論パターンと深い思考経路を生み出すことが示された。
- 参考スコア(独自算出の注目度): 85.201906907271
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large multimodal models have leveraged image-based tools with reinforcement learning to tackle visual problems. However, existing open-source approaches often exhibit monotonous reasoning patterns and allow only a limited number of interaction turns, making them inadequate for difficult tasks that require trial-and-error exploration. In this work, we address this limitation by scaling up tool-based interactions and introduce Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of steps -- and achieves state-of-the-art performance on challenging visual search tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key components. First, we construct the Visual Probe Dataset, a collection of thousands of challenging visual search problems designed for exploratory reasoning. Second, we develop an iterative data collection pipeline to obtain cold-start trajectories that exhibit diverse reasoning patterns, including depth-first search, trial-and-error, and goal maintenance. Third, we propose an over-turn masking strategy that prevents penalization of over-turn responses (those that hit the maximum number of turns) during reinforcement learning, thereby balancing training-time efficiency with test-time scalability. Despite training with an upper bound of only six interaction turns, our model generates trajectories that naturally scale to tens of turns at inference time, with accuracy improving as the number of turns increases. Extensive experiments demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking paths, effectively solving challenging visual search problems.
- Abstract(参考訳): 大規模マルチモーダルモデルの最近の進歩は、視覚的問題に対処するために強化学習を用いた画像ベースのツールを活用している。
しかし、既存のオープンソースアプローチは単調な推論パターンを示し、限られた数のインタラクションのターンしか許さないため、試行錯誤を必要とする困難なタスクには不十分である。
本研究では、ツールベースのインタラクションをスケールアップして、この制限に対処する。Mini-o3は、深いマルチターン推論 -- 数ステップに及ぶ -- を実行し、挑戦的なビジュアル検索タスクで最先端のパフォーマンスを達成するシステムだ。
OpenAI o3スタイルの動作を再現するためのレシピは、3つのキーコンポーネントから構成される。
まず、探索的推論のために設計された何千もの難解なビジュアル検索問題の集合であるVisual Probe Datasetを構築する。
第2に,深度優先探索,試行錯誤,目標維持など,多様な推論パターンを示す冷間開始軌道を得るための反復データ収集パイプラインを開発する。
第3に,強化学習におけるオーバーターン応答(最大ターン数)のペナル化を防止し,訓練時間の効率とテスト時間のスケーラビリティを両立させるオーバーターンマスキング戦略を提案する。
たった6つの相互作用ターンの上限を持つトレーニングにもかかわらず、我々のモデルは自然に数十のターンにスケールする軌跡を推論時に生成し、回転数が増加するにつれて精度が向上する。
広汎な実験により、Mini-o3は豊かな推論パターンと深い思考経路を生成し、視覚的な探索問題を効果的に解決することを示した。
関連論文リスト
- Efficient Odd-One-Out Anomaly Detection [7.456608146535316]
Odd-one-out 異常検出タスクは、多目的シーン内の奇妙なインスタンスを識別する。
この問題は、現代のディープラーニングモデルにいくつかの課題をもたらす。
本稿では,パラメータ数を3分の1削減し,学習時間を3倍に短縮するDINOモデルを提案する。
論文 参考訳(メタデータ) (2025-09-04T15:44:37Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks [42.022527376404476]
Embodied Reasonerは、o1スタイルの推論をインタラクティブなエボダイド検索タスクに拡張するモデルである。
我々は、64kの対話画像と90kの多様な思考プロセスを含む9.3kのコヒーレントな観測・推察軌道を合成する。
モデルの性能を段階的に向上する3段階のトレーニングパイプラインを開発している。
論文 参考訳(メタデータ) (2025-03-27T17:00:51Z) - EscapeCraft: A 3D Room Escape Environment for Benchmarking Complex Multimodal Reasoning Ability [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。
MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。
大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。
性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文 参考訳(メタデータ) (2025-03-13T04:48:43Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。