Fugu-MT 論文翻訳(概要): Revisiting Energy Based Models as Policies: Ranking Noise Contrastive Estimation and Interpolating Energy Models

論文の概要: Revisiting Energy Based Models as Policies: Ranking Noise Contrastive Estimation and Interpolating Energy Models

arxiv url: http://arxiv.org/abs/2309.05803v1
Date: Mon, 11 Sep 2023 20:13:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-13 15:20:15.230596
Title: Revisiting Energy Based Models as Policies: Ranking Noise Contrastive Estimation and Interpolating Energy Models
Title（参考訳）: エネルギーベースモデルの再検討 -ノイズコントラスト推定と補間エネルギーモデル-
Authors: Sumeet Singh, Stephen Tu, Vikas Sindhwani
Abstract要約: 本研究では,エネルギーベースモデル (EBM) の選択を政策クラスとして再考する。我々は,いくつかの重要な要素を組み合わせたエネルギーモデルのための学習目標とアルゴリズムを開発する。 Inlicit Behavior Cloning (IBC) の目的が実際に人口レベルでも偏っていることを示す。
参考スコア（独自算出の注目度）: 18.949193683555237
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A crucial design decision for any robot learning pipeline is the choice of policy representation: what type of model should be used to generate the next set of robot actions? Owing to the inherent multi-modal nature of many robotic tasks, combined with the recent successes in generative modeling, researchers have turned to state-of-the-art probabilistic models such as diffusion models for policy representation. In this work, we revisit the choice of energy-based models (EBM) as a policy class. We show that the prevailing folklore -- that energy models in high dimensional continuous spaces are impractical to train -- is false. We develop a practical training objective and algorithm for energy models which combines several key ingredients: (i) ranking noise contrastive estimation (R-NCE), (ii) learnable negative samplers, and (iii) non-adversarial joint training. We prove that our proposed objective function is asymptotically consistent and quantify its limiting variance. On the other hand, we show that the Implicit Behavior Cloning (IBC) objective is actually biased even at the population level, providing a mathematical explanation for the poor performance of IBC trained energy policies in several independent follow-up works. We further extend our algorithm to learn a continuous stochastic process that bridges noise and data, modeling this process with a family of EBMs indexed by scale variable. In doing so, we demonstrate that the core idea behind recent progress in generative modeling is actually compatible with EBMs. Altogether, our proposed training algorithms enable us to train energy-based models as policies which compete with -- and even outperform -- diffusion models and other state-of-the-art approaches in several challenging multi-modal benchmarks: obstacle avoidance path planning and contact-rich block pushing.
Abstract（参考訳）: ロボット学習パイプラインにとって重要な設計決定は、ポリシー表現の選択である。次の一連のロボットアクションを生成するために、どのようなモデルを使うべきか? 多くのロボットタスクの本質的にマルチモーダルな性質と、最近のジェネレーティブモデリングの成功により、研究者は政策表現のための拡散モデルのような最先端の確率モデルに転換した。本研究では,エネルギーベースモデル (EBM) の選択を政策クラスとして再考する。高次元連続空間におけるエネルギーモデルが訓練には実用的でないという一般的な民間伝承は偽であることを示す。いくつかの重要な要素を組み合わせたエネルギーモデルのための実践的学習目標とアルゴリズムを開発する。 (i)ランキングノイズコントラスト推定(r-nce) (ii)学習可能な負のサンプラー、 (iii)非敵合同訓練。提案する目的関数は漸近的に一貫性があり,その極限分散を定量化する。一方,ibc(暗黙的行動クローニング)の目的が集団レベルでも実際に偏っていることを示し,複数の独立したフォローアップ作業におけるibc訓練エネルギー政策の貧弱な性能に関する数学的説明を提供する。我々はさらにアルゴリズムを拡張し、ノイズとデータをブリッジする連続確率過程を学習し、この過程をスケール変数でインデックス付けされたEBMの族でモデル化する。そうすることで、生成モデリングの最近の進歩の背後にある核となるアイデアが実際にebmsと互換性があることを実証する。全体として,提案するトレーニングアルゴリズムは,ディフュージョンモデルや最先端のアプローチと競合するポリシとして,障害物回避パス計画やコンタクトリッチブロックプッシュといった,いくつかの困難なマルチモーダルベンチマークでエネルギベースのモデルをトレーニングすることを可能にします。

関連論文リスト

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities [41.02333103120137]
Diffusion Policyのような生成モデルによってパラメータ化される暗黙のポリシーは、しばしば高い計算コスト、露出バイアス、不安定な推論ダイナミクスに悩まされる。 EBT-Policyという新しいエネルギベースのアーキテクチャを導入し、ロボットと現実世界の設定における中核的な問題を解決する。 EBT-Policyは、トレーニングや推論の計算を少なくしながら、拡散ベースのポリシーを一貫して上回る。
論文参考訳（メタデータ） (2025-10-31T15:21:05Z)
Energy Matching: Unifying Flow Matching and Energy-Based Models for Generative Modeling [4.584647857042494]
生成モデルは、しばしばフローやスコアの一致によってデータにノイズをマッピングするが、これらのアプローチは部分的な観測や追加の事前を組み込むのに難しくなる。ワッサースタイン勾配流の最近の進歩に触発されて,エネルギーモデル(EBM)の柔軟性とフローベースアプローチを統一するフレームワークであるEnergy Matchingを提案する。我々は、このダイナミクスを、1つの時間非依存スカラー場でパラメータ化し、逆問題の効率的な正則化のために、強力な生成器と柔軟な先行器の両方として機能する。
論文参考訳（メタデータ） (2025-04-14T18:10:58Z)
Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods [4.028503203417233]
非微分可能報酬に対する離散拡散モデルを微調整するための、効率的で、広く適用でき、理論的に正当化されたポリシー勾配アルゴリズムを提案する。複数の離散的生成タスクに対する数値実験により,本手法のスケーラビリティと効率性を実証した。
論文参考訳（メタデータ） (2025-02-03T14:20:19Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文参考訳（メタデータ） (2023-08-29T07:15:57Z)
Maximum entropy exploration in contextual bandits with neural networks and energy based models [63.872634680339644]
モデルには2つのクラスがあり、1つはニューラルネットワークを報酬推定器とし、もう1つはエネルギーベースモデルを示す。両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。
論文参考訳（メタデータ） (2022-10-12T15:09:45Z)
Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。 E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文参考訳（メタデータ） (2022-06-26T10:58:41Z)
Model-Based Imitation Learning Using Entropy Regularization of Model and Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文参考訳（メタデータ） (2022-06-21T04:15:12Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文参考訳（メタデータ） (2021-07-05T07:18:20Z)
Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。 MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文参考訳（メタデータ） (2021-03-25T13:50:24Z)
A Spectral Energy Distance for Parallel Speech Synthesis [29.14723501889278]
音声合成は重要な実用的生成モデル問題である。そこで本研究では,高度に並列な音声モデルの学習を可能にする学習手法を提案する。
論文参考訳（メタデータ） (2020-08-03T19:56:04Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。