論文の概要: Markov Balance Satisfaction Improves Performance in Strictly Batch Offline Imitation Learning
- arxiv url: http://arxiv.org/abs/2408.09125v1
- Date: Sat, 17 Aug 2024 07:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 22:25:12.515224
- Title: Markov Balance Satisfaction Improves Performance in Strictly Batch Offline Imitation Learning
- Title(参考訳): Markov Balance Satisfactionは、厳密なバッチオフライン模倣学習のパフォーマンスを改善する
- Authors: Rishabh Agrawal, Nathan Dahlin, Rahul Jain, Ashutosh Nayyar,
- Abstract要約: 本研究では,模倣者が観察行動にのみ依存し,学習中に環境相互作用を起こさないシナリオに対処する。
State-of-the-art(SOTA IL)の手法とは異なり、このアプローチはより制約のある現実的な環境で動作することで従来のILの制限に対処する。
我々は多くのSOTA ILアルゴリズムと比較して実験性能が一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 8.92571113137362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning (IL) is notably effective for robotic tasks where directly programming behaviors or defining optimal control costs is challenging. In this work, we address a scenario where the imitator relies solely on observed behavior and cannot make environmental interactions during learning. It does not have additional supplementary datasets beyond the expert's dataset nor any information about the transition dynamics. Unlike state-of-the-art (SOTA) IL methods, this approach tackles the limitations of conventional IL by operating in a more constrained and realistic setting. Our method uses the Markov balance equation and introduces a novel conditional density estimation-based imitation learning framework. It employs conditional normalizing flows for transition dynamics estimation and aims at satisfying a balance equation for the environment. Through a series of numerical experiments on Classic Control and MuJoCo environments, we demonstrate consistently superior empirical performance compared to many SOTA IL algorithms.
- Abstract(参考訳): 模倣学習(IL)は、直接プログラミングや最適制御コストの定義が困難なロボット作業に特に効果的である。
本研究では,模倣者が観察行動にのみ依存し,学習中に環境相互作用を起こさないシナリオに対処する。
専門家のデータセット以外の追加のデータセットや、移行ダイナミクスに関する情報は持っていない。
State-of-the-art (SOTA) の IL メソッドとは異なり、このアプローチはより制約のある現実的な環境で動作することで、従来の IL の制限に対処する。
本手法はマルコフ均衡方程式を用いて,新しい条件密度推定に基づく模倣学習フレームワークを提案する。
遷移力学推定に条件付き正規化フローを使用し、環境のバランス方程式を満たすことを目的としている。
古典制御と MuJoCo 環境に関する数値実験を通じて,多くのSOTA IL アルゴリズムと比較して,実験性能が一貫して優れていることを示す。
関連論文リスト
- COSBO: Conservative Offline Simulation-Based Policy Optimization [7.696359453385686]
オフライン強化学習は、ライブデプロイメントのデータに関する強化学習モデルのトレーニングを可能にする。
対照的に、ライブ環境を再現しようとするシミュレーション環境は、ライブデータの代わりに利用できる。
本研究では,不完全なシミュレーション環境と対象環境のデータを組み合わせることで,オフラインの強化学習ポリシーを訓練する手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T12:20:55Z) - Dynamic Environment Responsive Online Meta-Learning with Fairness
Awareness [30.44174123736964]
本稿では,FairSAOMLと呼ばれる,適応フェアネスを考慮したオンラインメタ学習アルゴリズムを提案する。
動的環境下での様々な実世界のデータセットに対する実験評価により,提案アルゴリズムが一貫した代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T17:44:35Z) - Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。