論文の概要: State-only Imitation with Transition Dynamics Mismatch
- arxiv url: http://arxiv.org/abs/2002.11879v1
- Date: Thu, 27 Feb 2020 02:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:28:09.713328
- Title: State-only Imitation with Transition Dynamics Mismatch
- Title(参考訳): 遷移ダイナミクスミスマッチによる状態のみの模倣
- Authors: Tanmay Gangwani, Jian Peng
- Abstract要約: イミテーションラーニング(Imitation Learning, IL)は、専門家の行動を活用することで、複雑な目標を達成するための訓練エージェントにとって一般的なパラダイムである。
本稿では,新しい状態のみのILアルゴリズムを提案する。
提案アルゴリズムは,専門家と模倣MDPの間に遷移力学ミスマッチが存在する場合,特に有効であることを示す。
- 参考スコア(独自算出の注目度): 16.934888672659824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning (IL) is a popular paradigm for training agents to achieve
complicated goals by leveraging expert behavior, rather than dealing with the
hardships of designing a correct reward function. With the environment modeled
as a Markov Decision Process (MDP), most of the existing IL algorithms are
contingent on the availability of expert demonstrations in the same MDP as the
one in which a new imitator policy is to be learned. This is uncharacteristic
of many real-life scenarios where discrepancies between the expert and the
imitator MDPs are common, especially in the transition dynamics function.
Furthermore, obtaining expert actions may be costly or infeasible, making the
recent trend towards state-only IL (where expert demonstrations constitute only
states or observations) ever so promising. Building on recent adversarial
imitation approaches that are motivated by the idea of divergence minimization,
we present a new state-only IL algorithm in this paper. It divides the overall
optimization objective into two subproblems by introducing an indirection step
and solves the subproblems iteratively. We show that our algorithm is
particularly effective when there is a transition dynamics mismatch between the
expert and imitator MDPs, while the baseline IL methods suffer from performance
degradation. To analyze this, we construct several interesting MDPs by
modifying the configuration parameters for the MuJoCo locomotion tasks from
OpenAI Gym.
- Abstract(参考訳): 模倣学習(il)は、正しい報酬関数を設計する際の困難に対処するのではなく、専門家の行動を活用することで複雑な目標を達成するための訓練エージェントの一般的なパラダイムである。
Markov Decision Process (MDP) としてモデル化された環境では、既存のILアルゴリズムのほとんどは、新しい模倣者ポリシーを学習するのと同じMDPで専門家によるデモンストレーションが利用可能になっている。
これは、特に遷移力学関数において、専門家と模倣MDPの相違が一般的である多くの実生活シナリオに特有ではない。
さらに、専門家の行動を得ることはコストがかかるか実現不可能であり、国家のみのil(専門家のデモンストレーションが状態や観察のみを構成する)への最近の傾向は、非常に有望である。
本稿では, 発散最小化のアイデアを動機とする最近の敵対的模倣手法に基づいて, 状態のみのilアルゴリズムを提案する。
最適化対象を間接ステップを導入して2つのサブプロブレムに分割し、反復的にサブプロブレムを解く。
提案手法は, エキスパートとイミテータのmdp間に遷移ダイナミクスのミスマッチがある場合に特に有効であり, また, ベースラインのilメソッドは性能低下に苦しむ。
これを解析するために,OpenAI Gym の MuJoCo 移動タスクの設定パラメータを変更することで,興味深い MDP を構築する。
関連論文リスト
- FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments [45.213059639254475]
我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。
これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。
自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-10-09T13:35:28Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Cross-domain Imitation from Observations [50.669343548588294]
模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T21:08:25Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。