論文の概要: Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
- arxiv url: http://arxiv.org/abs/2511.00710v1
- Date: Sat, 01 Nov 2025 21:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.906917
- Title: Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
- Title(参考訳): Ariadne: VLM推論境界の探索と拡張のための制御可能なフレームワーク
- Authors: Minghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu,
- Abstract要約: 多段階空間推論のための合成迷路を利用したフレームワークであるAriadneを紹介する。
我々は、この制御可能な環境を利用して、難易度を意識したカリキュラムにおいて、Reinforcement Learning with Verified Rewards(RLVR)を用いて視覚言語モデル(VLM)を訓練する。
驚くべきことに、VLMはRLVR後のトレーニングにおいて、ベースモデルが0%となる問題セットに対して50%以上の精度を達成する。
- 参考スコア(独自算出の注目度): 23.825984868116716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language Models (VLMs) post-trained with Reinforcement Learning (RL) show impressive general reasoning, their evaluation is often confined to language-dominant tasks (e.g., math). This raises a critical question: can RL post-training truly extend the inherent capability boundary of a base VLM, particularly for visual-centric spatial tasks where it initially fails? To investigate this, we introduce Ariadne, a framework utilizing synthetic mazes for multi-step spatial reasoning where task difficulty (e.g., path length, turns) is precisely controlled. We leverage this controllable environment to train VLMs using Reinforcement Learning with Verified Rewards (RLVR) in a difficulty-aware curriculum. Surprisingly, post-RLVR training, the VLM achieves over 50% accuracy on a problem set where the base model scored 0%, demonstrating that our approach expands the model's initial capability boundary. To assess real-world viability, we evaluate out-of-distribution (OOD) generalization on practical benchmarks. Despite training only on synthetic maze samples, Ariadne achieves significant zero-shot improvements, averaging 16% on MapBench (e.g., museum navigation) and 24% on ReasonMap (subway transfer tasks). These results confirm that our method not only broadens the model's fundamental limits but also enhances its generalization to real-world spatial reasoning. We acknowledge our study is limited to the post-training phase, given the opaqueness of pre-training data, and hope our research motivates further work on specialized, capability-extending alignment.
- Abstract(参考訳): 強化学習(RL)で訓練後の視覚言語モデル(VLM)は印象的な一般的な推論を示すが、その評価は言語に支配的なタスク(例えば数学)に限られることが多い。
RLポストトレーニングは、特に最初に失敗する視覚中心の空間タスクにおいて、ベースVLMの本質的な能力境界を真に拡張できるだろうか?
そこで本研究では,タスクの難易度(例えば,経路長,旋回)を正確に制御する多段階空間推論のための合成迷路を用いたフレームワークであるAriadneを紹介する。
我々は、この制御可能な環境を利用して、難易度を意識したカリキュラムにおいて、Reinforcement Learning with Verified Rewards (RLVR)を用いてVLMを訓練する。
驚くべきことに、VLMは、ベースモデルが0%を記録した問題セットに対して50%以上の精度を達成し、我々のアプローチがモデルの初期能力境界を拡張することを示した。
実世界の生存可能性を評価するため,実践的なベンチマークを用いて配布外一般化(OOD)を評価する。
合成迷路サンプルのみのトレーニングにもかかわらず、アリアドンは、MapBench(例えば、博物館のナビゲーション)で16%、ReasonMap(サブウェイの転送タスク)で24%という、大幅なゼロショットの改善を実現している。
これらの結果から,本手法はモデルの基本的限界を広げるだけでなく,実世界の空間的推論への一般化を促進することが確認された。
我々は、事前学習データの不透明さから、学習が後学習段階に限られていることを認識し、我々の研究が専門的で、拡張性のあるアライメントへのさらなる取り組みを動機付けていることを願っている。
関連論文リスト
- Do Math Reasoning LLMs Help Predict the Impact of Public Transit Events? [6.428337528749318]
単一の正解を要求するのではなく、連続的なエラーマージン内で部分的な信用を付与する寛容に基づく形状の報酬関数を導入する。
この結果から,汎用的な命令調整型LLMは,特殊数学推論モデルよりも優れていたことが示唆された。
このことは、RLVRが実世界のノイズ予測にうまく適応できることを示しているが、問題の継続的な性質を反映した検証設計が必要である。
論文 参考訳(メタデータ) (2025-11-02T05:21:33Z) - Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning [93.19037653970622]
本研究では,通常のRGBやRGB-D画像から直接検証可能な信号を導出する自己教師付きRLパラダイムである空間SSRLを紹介する。
我々のタスクの訓練は、一般的な視覚能力を維持しながら空間的推論を大幅に改善する。
以上の結果から,単純で本質的な監視がRLVRを大規模に実現し,LVLMの空間知能を高めるための実践的経路が示唆された。
論文 参考訳(メタデータ) (2025-10-31T16:30:08Z) - Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches [2.9165586612027234]
VLM指導は早期サンプル効率を著しく向上させることができることを示す。
本結果は,エンド・ツー・エンド・エンド・コントロールではなく,基礎モデルを用いて探索をガイドする可能性や制約を明らかにするものである。
論文 参考訳(メタデータ) (2025-09-24T09:25:15Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [58.62311540316617]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Offline RLAIF: Piloting VLM Feedback for RL via SFO [4.391505380846452]
VLM(Vision-Language Models)は、アクション条件のトレーニングデータがないため、制御タスクを解く能力に制限がある。
AIフィードバックからの強化学習における重要な課題は、VLM由来の信号を学習プロセスに統合する方法を決定することだ。
論文 参考訳(メタデータ) (2025-03-02T23:52:46Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。