論文の概要: Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2602.08167v1
- Date: Mon, 09 Feb 2026 00:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.007988
- Title: Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning
- Title(参考訳): 行動予測型共振器の自己監督型ブートストラップ
- Authors: Milan Ganai, Katie Luo, Jonas Frey, Clark Barrett, Marco Pavone,
- Abstract要約: Embodied Chain-of-Thought (CoT)推論はビジョン・ランゲージ・アクション(VLA)モデルを大幅に強化した。
現在のメソッドは推論プリミティブを指定するために厳格なテンプレートに依存している。
R&B-EnCoReを導入し、インターネット規模の知識から具体的推論のブートストラップを可能にする。
- 参考スコア(独自算出の注目度): 22.45731787625021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied Chain-of-Thought (CoT) reasoning has significantly enhanced Vision-Language-Action (VLA) models, yet current methods rely on rigid templates to specify reasoning primitives (e.g., objects in the scene, high-level plans, structural affordances). These templates can force policies to process irrelevant information that distracts from critical action-prediction signals. This creates a bottleneck: without successful policies, we cannot verify reasoning quality; without quality reasoning, we cannot build robust policies. We introduce R&B-EnCoRe, which enables models to bootstrap embodied reasoning from internet-scale knowledge through self-supervised refinement. By treating reasoning as a latent variable within importance-weighted variational inference, models can generate and distill a refined reasoning training dataset of embodiment-specific strategies without external rewards, verifiers, or human annotation. We validate R&B-EnCoRe across manipulation (Franka Panda in simulation, WidowX in hardware), legged navigation (bipedal, wheeled, bicycle, quadruped), and autonomous driving embodiments using various VLA architectures with 1B, 4B, 7B, and 30B parameters. Our approach achieves 28% gains in manipulation success, 101% improvement in navigation scores, and 21% reduction in collision-rate metric over models that indiscriminately reason about all available primitives. R&B-EnCoRe enables models to distill reasoning that is predictive of successful control, bypassing manual annotation engineering while grounding internet-scale knowledge in physical execution.
- Abstract(参考訳): Embodied Chain-of-Thought (CoT) 推論は、Vision-Language-Action (VLA) モデルを大幅に向上させたが、現在の手法は、推論プリミティブ(例えば、シーン内のオブジェクト、高レベルプラン、構造的余裕)を指定するための厳密なテンプレートに依存している。
これらのテンプレートは、重要な行動予測信号から逸脱する無関係な情報を処理するようにポリシーを強制することができる。
これはボトルネックを生み出します – ポリシが成功しなければ,品質の推論を検証できず,品質の推論がなければ,堅牢なポリシを構築することはできません。
本稿では,R&B-EnCoReを導入し,自己教師による改良を通じて,インターネット規模の知識から具体的推論のブートストラップを可能にする。
重要性重み付き変分推論において、推論を潜在変数として扱うことで、モデルは、外部報酬、検証者、または人間のアノテーションなしで、具体的戦略の洗練された推論訓練データセットを生成して、蒸留することができる。
シミュレーションではFranka Panda,ハードウェアではWidowX,脚付きナビゲーション(二足歩行,車輪付き,自転車,四足歩行),および1B,4B,7B,30Bパラメータの様々なVLAアーキテクチャを用いた自律走行エボディメントを用いてR&B-EnCoReを検証した。
提案手法は,操作成功率の28%,ナビゲーションスコアの101%,衝突速度の21%の削減を実現している。
R&B-EnCoReは、物理的実行におけるインターネットスケールの知識を基礎にして、手動のアノテーション工学をバイパスして、制御を成功に導く推論を蒸留することを可能にする。
関連論文リスト
- You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models [12.14455026524814]
限定的な推論能力を持つベースモデルに対するラベルフリーなRLアプローチの一般化可能性について検討する。
ラベルのないRLは,既存の推論能力に大きく依存していることがわかった。
本稿では,カリキュラム学習を利用して難解な問題を段階的に導入するラベルフリーRLの簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-11-07T01:05:11Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - The Elicitation Game: Evaluating Capability Elicitation Techniques [1.004239817159128]
本研究は, モデル生物を意図的に訓練し, 能力評価手法の有効性を評価する。
本稿では,回路ブレーキングに基づくモデル生物の訓練手法を提案する。
コード生成タスクでは、ファインチューニングだけが、新しいモデル生物の隠れた能力を引き出すことができます。
論文 参考訳(メタデータ) (2025-02-04T09:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。