論文の概要: Offline Imitation Learning with Model-based Reverse Augmentation
- arxiv url: http://arxiv.org/abs/2406.12550v1
- Date: Tue, 18 Jun 2024 12:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:07:52.597928
- Title: Offline Imitation Learning with Model-based Reverse Augmentation
- Title(参考訳): モデルに基づく逆拡張によるオフライン模倣学習
- Authors: Jie-Jing Shao, Hao-Sen Shi, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
- 参考スコア(独自算出の注目度): 48.64791438847236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline Imitation Learning (IL), one of the main challenges is the \textit{covariate shift} between the expert observations and the actual distribution encountered by the agent, because it is difficult to determine what action an agent should take when outside the state distribution of the expert demonstrations. Recently, the model-free solutions introduce the supplementary data and identify the latent expert-similar samples to augment the reliable samples during learning. Model-based solutions build forward dynamic models with conservatism quantification and then generate additional trajectories in the neighborhood of expert demonstrations. However, without reward supervision, these methods are often over-conservative in the out-of-expert-support regions, because only in states close to expert-observed states can there be a preferred action enabling policy optimization. To encourage more exploration on expert-unobserved states, we propose a novel model-based framework, called offline Imitation Learning with Self-paced Reverse Augmentation (SRA). Specifically, we build a reverse dynamic model from the offline demonstrations, which can efficiently generate trajectories leading to the expert-observed states in a self-paced style. Then, we use the subsequent reinforcement learning method to learn from the augmented trajectories and transit from expert-unobserved states to expert-observed states. This framework not only explores the expert-unobserved states but also guides maximizing long-term returns on these states, ultimately enabling generalization beyond the expert data. Empirical results show that our proposal could effectively mitigate the covariate shift and achieve the state-of-the-art performance on the offline imitation learning benchmarks. Project website: \url{https://www.lamda.nju.edu.cn/shaojj/KDD24_SRA/}.
- Abstract(参考訳): オフラインのImitation Learning(IL)では、専門家の観察結果とエージェントが遭遇する実際の分布との間の「textit{covariate shift}」が大きな課題である。
近年、モデルフリーのソリューションでは、補足データを導入し、学習中の信頼性の高いサンプルを増やすために、潜伏した専門家類似のサンプルを特定している。
モデルに基づくソリューションは、保守主義の定量化を伴う前方の動的モデルを構築し、専門家によるデモンストレーションの近傍で追加の軌道を生成する。
しかしながら、報酬の監督なしでは、これらの手法は、専門家が守られた状態に近い州でのみ、政策最適化を可能にする行動が望ましいため、専門家以外の地域では過保守的であることが多い。
専門家が観察できない状態の探索を促進するため,我々は,SRA(Local Imitation Learning with Self-paced Reverse Augmentation)と呼ばれる新しいモデルベースのフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、セルフペースのスタイルで専門家が観察した状態につながる軌道を効率的に生成する。
そして、その後の強化学習手法を用いて、強化された軌跡から学習し、専門家未観測状態から専門家未観測状態へ移行する。
このフレームワークは、専門家が観測していない状態だけでなく、これらの状態に対する長期的なリターンを最大化し、最終的に専門家データを超えた一般化を可能にする。
実験の結果,提案手法は共変量シフトを効果的に軽減し,オフライン模倣学習ベンチマークの最先端性能を実現することができることが示された。
プロジェクトウェブサイト: \url{https://www.lamda.nju.edu.cn/shaojj/KDD24_SRA/}
関連論文リスト
- A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Can Direct Latent Model Learning Solve Linear Quadratic Gaussian
Control? [75.14973944905216]
本研究では,高次元観測から状態表現を学習する課題について検討する。
我々は,ある潜在状態空間における動的モデルを,計画に直接関連する量を予測することによって学習する,直接潜在モデル学習手法を追求する。
論文 参考訳(メタデータ) (2022-12-30T01:42:04Z) - IL-flOw: Imitation Learning from Observation using Normalizing Flows [28.998176144874193]
本稿では,エキスパート状態観測のみから逆強化学習(IRL)のアルゴリズムを提案する。
我々のアプローチは、最先端の敵対的手法とは異なり、報酬モデリングを政策学習から切り離している。
論文 参考訳(メタデータ) (2022-05-19T00:05:03Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Augmented Behavioral Cloning from Observation [14.45796459531414]
観察からの模倣(英:imitation from Observation)とは、専門家の行動の模倣法をエージェントに教える技法である。
我々は4つの異なる環境における最先端のアプローチよりも大きなマージンで優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-28T13:56:36Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。