論文の概要: Noise-conditioned Energy-based Annealed Rewards (NEAR): A Generative Framework for Imitation Learning from Observation
- arxiv url: http://arxiv.org/abs/2501.14856v2
- Date: Wed, 12 Feb 2025 10:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:45:40.638834
- Title: Noise-conditioned Energy-based Annealed Rewards (NEAR): A Generative Framework for Imitation Learning from Observation
- Title(参考訳): 騒音調和型エネルギーベースアナード・リワード(NEAR):観測からの模倣学習のための生成フレームワーク
- Authors: Anish Abhijit Diwan, Julen Urain, Jens Kober, Jan Peters,
- Abstract要約: 本稿では,エネルギーモデルに基づく新しい模倣学習フレームワークを提案する。
我々は、国家のみの専門家による運動軌跡を通して、複雑で物理学に依存したロボットの動きポリシーを学習する。
本フレームワークは,対戦型模倣学習技術の最適化課題をサイドステップとする。
- 参考スコア(独自算出の注目度): 17.73467861849673
- License:
- Abstract: This paper introduces a new imitation learning framework based on energy-based generative models capable of learning complex, physics-dependent, robot motion policies through state-only expert motion trajectories. Our algorithm, called Noise-conditioned Energy-based Annealed Rewards (NEAR), constructs several perturbed versions of the expert's motion data distribution and learns smooth, and well-defined representations of the data distribution's energy function using denoising score matching. We propose to use these learnt energy functions as reward functions to learn imitation policies via reinforcement learning. We also present a strategy to gradually switch between the learnt energy functions, ensuring that the learnt rewards are always well-defined in the manifold of policy-generated samples. We evaluate our algorithm on complex humanoid tasks such as locomotion and martial arts and compare it with state-only adversarial imitation learning algorithms like Adversarial Motion Priors (AMP). Our framework sidesteps the optimisation challenges of adversarial imitation learning techniques and produces results comparable to AMP in several quantitative metrics across multiple imitation settings.
- Abstract(参考訳): 本稿では、状態のみの専門的な運動軌跡を通して、複雑な物理に依存したロボットの動きポリシーを学習できるエネルギーベース生成モデルに基づく新しい模倣学習フレームワークを提案する。
我々のアルゴリズムはノイズ条件付きエネルギーベースAnnealed Rewards (NEAR) と呼ばれ、専門家の運動データ分布の摂動バージョンを複数構築し、スムースに学習し、Denoising score matching を用いてデータ分布のエネルギー関数を適切に定義した表現を学習する。
本稿では,これらの学習エネルギー関数を報酬関数として用いて,強化学習を通じて模倣ポリシーを学習することを提案する。
また、学習したエネルギー関数を徐々に切り替えて、学習した報酬が政策生成サンプルの多様体で常に適切に定義されることを保証する戦略も提示する。
我々は,ロコモーションや武道といった複雑なヒューマノイドの課題に対して,我々のアルゴリズムを評価し,それと国家のみの敵対的模倣学習アルゴリズムである Adversarial Motion Priors (AMP) を比較した。
本フレームワークは, 逆模倣学習手法の最適化課題をサイドステップとして, 複数の模倣設定にまたがって, AMPに匹敵する結果を生成する。
関連論文リスト
- Revisiting Energy Based Models as Policies: Ranking Noise Contrastive
Estimation and Interpolating Energy Models [18.949193683555237]
本研究では,エネルギーベースモデル (EBM) の選択を政策クラスとして再考する。
我々は,いくつかの重要な要素を組み合わせたエネルギーモデルのための学習目標とアルゴリズムを開発する。
Inlicit Behavior Cloning (IBC) の目的が実際に人口レベルでも偏っていることを示す。
論文 参考訳(メタデータ) (2023-09-11T20:13:47Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Assessing Evolutionary Terrain Generation Methods for Curriculum
Reinforcement Learning [3.1971316044104254]
CPPN と GAN の2つの間接符号化との比較を行った。
生成した地形メッシュから直接メトリクスを計算するMAP-Elites特徴記述子の影響を評価する。
結果は,カリキュラム学習における利用を通知するジェネレータ間の重要な違いを解説し,コミュニティの獲得に有用な特徴記述器を提示する。
論文 参考訳(メタデータ) (2022-03-29T01:26:15Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Shared Prior Learning of Energy-Based Models for Image Reconstruction [69.72364451042922]
本研究では,地中真理データを含まないトレーニングに特化して設計された画像再構成のための新しい学習ベースフレームワークを提案する。
基底真理データがない場合には、損失関数をパッチベースのワッサーシュタイン関数に変更する。
共用事前学習では、上記の最適制御問題と正規化器の共用学習パラメータを同時に最適化する。
論文 参考訳(メタデータ) (2020-11-12T17:56:05Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Energy-Based Imitation Learning [29.55675131809474]
我々は、エージェントが専門家によるデモンストレーションから最適なポリシーを回復しようとする模倣学習(IL)の一般的なシナリオに取り組む。
本稿では,エネルギーベースモデル(EBM)の最近の進歩に触発されて,エネルギーベース・イミテーション・ラーニング(EBIL)というシンプルなILフレームワークを提案する。
EBIL は EBM と cccupancy measure matching の両概念を組み合わせており、理論解析により EBIL と Max-Entropy IRL (MaxEnt IRL) のアプローチが同じコインの2つの側面であることを明らかにする。
論文 参考訳(メタデータ) (2020-04-20T15:49:35Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。