論文の概要: Revisiting Energy Based Models as Policies: Ranking Noise Contrastive
Estimation and Interpolating Energy Models
- arxiv url: http://arxiv.org/abs/2309.05803v1
- Date: Mon, 11 Sep 2023 20:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:20:15.230596
- Title: Revisiting Energy Based Models as Policies: Ranking Noise Contrastive
Estimation and Interpolating Energy Models
- Title(参考訳): エネルギーベースモデルの再検討 -ノイズコントラスト推定と補間エネルギーモデル-
- Authors: Sumeet Singh, Stephen Tu, Vikas Sindhwani
- Abstract要約: 本研究では,エネルギーベースモデル (EBM) の選択を政策クラスとして再考する。
我々は,いくつかの重要な要素を組み合わせたエネルギーモデルのための学習目標とアルゴリズムを開発する。
Inlicit Behavior Cloning (IBC) の目的が実際に人口レベルでも偏っていることを示す。
- 参考スコア(独自算出の注目度): 18.949193683555237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A crucial design decision for any robot learning pipeline is the choice of
policy representation: what type of model should be used to generate the next
set of robot actions? Owing to the inherent multi-modal nature of many robotic
tasks, combined with the recent successes in generative modeling, researchers
have turned to state-of-the-art probabilistic models such as diffusion models
for policy representation. In this work, we revisit the choice of energy-based
models (EBM) as a policy class. We show that the prevailing folklore -- that
energy models in high dimensional continuous spaces are impractical to train --
is false. We develop a practical training objective and algorithm for energy
models which combines several key ingredients: (i) ranking noise contrastive
estimation (R-NCE), (ii) learnable negative samplers, and (iii) non-adversarial
joint training. We prove that our proposed objective function is asymptotically
consistent and quantify its limiting variance. On the other hand, we show that
the Implicit Behavior Cloning (IBC) objective is actually biased even at the
population level, providing a mathematical explanation for the poor performance
of IBC trained energy policies in several independent follow-up works. We
further extend our algorithm to learn a continuous stochastic process that
bridges noise and data, modeling this process with a family of EBMs indexed by
scale variable. In doing so, we demonstrate that the core idea behind recent
progress in generative modeling is actually compatible with EBMs. Altogether,
our proposed training algorithms enable us to train energy-based models as
policies which compete with -- and even outperform -- diffusion models and
other state-of-the-art approaches in several challenging multi-modal
benchmarks: obstacle avoidance path planning and contact-rich block pushing.
- Abstract(参考訳): ロボット学習パイプラインにとって重要な設計決定は、ポリシー表現の選択である。次の一連のロボットアクションを生成するために、どのようなモデルを使うべきか?
多くのロボットタスクの本質的にマルチモーダルな性質と、最近のジェネレーティブモデリングの成功により、研究者は政策表現のための拡散モデルのような最先端の確率モデルに転換した。
本研究では,エネルギーベースモデル (EBM) の選択を政策クラスとして再考する。
高次元連続空間におけるエネルギーモデルが訓練には実用的でないという一般的な民間伝承は偽であることを示す。
いくつかの重要な要素を組み合わせたエネルギーモデルのための実践的学習目標とアルゴリズムを開発する。
(i)ランキングノイズコントラスト推定(r-nce)
(ii)学習可能な負のサンプラー、
(iii)非敵合同訓練。
提案する目的関数は漸近的に一貫性があり,その極限分散を定量化する。
一方,ibc(暗黙的行動クローニング)の目的が集団レベルでも実際に偏っていることを示し,複数の独立したフォローアップ作業におけるibc訓練エネルギー政策の貧弱な性能に関する数学的説明を提供する。
我々はさらにアルゴリズムを拡張し、ノイズとデータをブリッジする連続確率過程を学習し、この過程をスケール変数でインデックス付けされたEBMの族でモデル化する。
そうすることで、生成モデリングの最近の進歩の背後にある核となるアイデアが実際にebmsと互換性があることを実証する。
全体として,提案するトレーニングアルゴリズムは,ディフュージョンモデルや最先端のアプローチと競合するポリシとして,障害物回避パス計画やコンタクトリッチブロックプッシュといった,いくつかの困難なマルチモーダルベンチマークでエネルギベースのモデルをトレーニングすることを可能にします。
関連論文リスト
- Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Maximum entropy exploration in contextual bandits with neural networks
and energy based models [63.872634680339644]
モデルには2つのクラスがあり、1つはニューラルネットワークを報酬推定器とし、もう1つはエネルギーベースモデルを示す。
両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。
これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。
論文 参考訳(メタデータ) (2022-10-12T15:09:45Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Model-Based Imitation Learning Using Entropy Regularization of Model and
Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。
ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。
計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-06-21T04:15:12Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - A Spectral Energy Distance for Parallel Speech Synthesis [29.14723501889278]
音声合成は重要な実用的生成モデル問題である。
そこで本研究では,高度に並列な音声モデルの学習を可能にする学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-03T19:56:04Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。