論文の概要: EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
- arxiv url: http://arxiv.org/abs/2510.27545v1
- Date: Fri, 31 Oct 2025 15:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.149
- Title: EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
- Title(参考訳): EBT-Policy: 創発的な物理推論能力でエネルギーを解き放つ
- Authors: Travis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu,
- Abstract要約: Diffusion Policyのような生成モデルによってパラメータ化される暗黙のポリシーは、しばしば高い計算コスト、露出バイアス、不安定な推論ダイナミクスに悩まされる。
EBT-Policyという新しいエネルギベースのアーキテクチャを導入し、ロボットと現実世界の設定における中核的な問題を解決する。
EBT-Policyは、トレーニングや推論の計算を少なくしながら、拡散ベースのポリシーを一貫して上回る。
- 参考スコア(独自算出の注目度): 41.02333103120137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Implicit policies parameterized by generative models, such as Diffusion Policy, have become the standard for policy learning and Vision-Language-Action (VLA) models in robotics. However, these approaches often suffer from high computational cost, exposure bias, and unstable inference dynamics, which lead to divergence under distribution shifts. Energy-Based Models (EBMs) address these issues by learning energy landscapes end-to-end and modeling equilibrium dynamics, offering improved robustness and reduced exposure bias. Yet, policies parameterized by EBMs have historically struggled to scale effectively. Recent work on Energy-Based Transformers (EBTs) demonstrates the scalability of EBMs to high-dimensional spaces, but their potential for solving core challenges in physically embodied models remains underexplored. We introduce a new energy-based architecture, EBT-Policy, that solves core issues in robotic and real-world settings. Across simulated and real-world tasks, EBT-Policy consistently outperforms diffusion-based policies, while requiring less training and inference computation. Remarkably, on some tasks it converges within just two inference steps, a 50x reduction compared to Diffusion Policy's 100. Moreover, EBT-Policy exhibits emergent capabilities not seen in prior models, such as zero-shot recovery from failed action sequences using only behavior cloning and without explicit retry training. By leveraging its scalar energy for uncertainty-aware inference and dynamic compute allocation, EBT-Policy offers a promising path toward robust, generalizable robot behavior under distribution shifts.
- Abstract(参考訳): 拡散政策のような生成モデルによってパラメータ化される暗黙のポリシーは、ロボット工学におけるポリシー学習とビジョン・ランゲージ・アクション(VLA)モデルの標準となっている。
しかしながら、これらのアプローチは高い計算コスト、露光バイアス、不安定な推論ダイナミクスに悩まされ、分散シフトの下でのばらつきを引き起こす。
エネルギーベースモデル(EBM)は、エネルギーランドスケープをエンドツーエンドに学習し、平衡力学をモデル化することでこれらの問題に対処し、堅牢性を改善し、露光バイアスを低減した。
しかし、ESMによってパラメータ化された政策は、歴史的に効果的にスケールするのに苦労してきた。
近年のEnergy-Based Transformers (EBT) の研究は, EBMの高次元空間への拡張性を示すものであるが, 物理的に具体化されたモデルにおいて, コア課題を解決する可能性はまだ未定である。
EBT-Policyという新しいエネルギベースのアーキテクチャを導入し、ロボットと現実世界の設定における中核的な問題を解決する。
EBT-Policyは、シミュレーションされた実世界のタスク全体にわたって、トレーニングや推論の計算を少なくしながら、拡散ベースのポリシーを一貫して上回っている。
注目すべきことに、いくつかのタスクでは、Diffusion Policyの100倍の50倍の50倍という、たった2つの推論ステップに収束する。
さらに、EBT-Policyは、動作クローンのみを使用し、明示的な再試行訓練を行わず、失敗するアクションシーケンスからのゼロショットリカバリのような、以前のモデルでは見られない創発的能力を示す。
EBT-Policyは、そのスカラーエネルギーを不確実性を考慮した推論と動的計算割り当てに活用することにより、分散シフト下での堅牢で一般化可能なロボット動作への有望な経路を提供する。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Enhancing Cyber-Resilience in Integrated Energy System Scheduling with Demand Response Using Deep Reinforcement Learning [11.223780653355437]
本稿では, 状態適応型深部強化学習(DRL)に基づくモデルレスレジリエンススケジューリング手法を提案する。
提案手法は、電力・ガス・熱可塑性負荷の相互作用能力を調べるためのIDRプログラムを設計する。
スケジューリング戦略に対するサイバー攻撃の影響を軽減するため,SA-SAC (State-adversarial soft actor-critic)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T23:29:36Z) - Revisiting Energy Based Models as Policies: Ranking Noise Contrastive
Estimation and Interpolating Energy Models [18.949193683555237]
本研究では,エネルギーベースモデル (EBM) の選択を政策クラスとして再考する。
我々は,いくつかの重要な要素を組み合わせたエネルギーモデルのための学習目標とアルゴリズムを開発する。
Inlicit Behavior Cloning (IBC) の目的が実際に人口レベルでも偏っていることを示す。
論文 参考訳(メタデータ) (2023-09-11T20:13:47Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:58:10Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。