論文の概要: A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories
- arxiv url: http://arxiv.org/abs/2311.01329v1
- Date: Thu, 2 Nov 2023 15:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 13:01:07.707969
- Title: A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories
- Title(参考訳): 観測からのオフライン模倣の簡単な解法と不完全軌道の例
- Authors: Kai Yan, Alexander G. Schwing, Yu-Xiong Wang
- Abstract要約: オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
- 参考スコア(独自算出の注目度): 122.11358440078581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Offline imitation from observations aims to solve MDPs where only
task-specific expert states and task-agnostic non-expert state-action pairs are
available. Offline imitation is useful in real-world scenarios where arbitrary
interactions are costly and expert actions are unavailable. The
state-of-the-art "DIstribution Correction Estimation" (DICE) methods minimize
divergence of state occupancy between expert and learner policies and retrieve
a policy with weighted behavior cloning; however, their results are unstable
when learning from incomplete trajectories, due to a non-robust optimization in
the dual domain. To address the issue, in this paper, we propose
Trajectory-Aware Imitation Learning from Observations (TAILO). TAILO uses a
discounted sum along the future trajectory as the weight for weighted behavior
cloning. The terms for the sum are scaled by the output of a discriminator,
which aims to identify expert states. Despite simplicity, TAILO works well if
there exist trajectories or segments of expert behavior in the task-agnostic
data, a common assumption in prior work. In experiments across multiple
testbeds, we find TAILO to be more robust and effective, particularly with
incomplete trajectories.
- Abstract(参考訳): 観察からのオフラインの模倣は、タスク固有の専門家状態とタスクに依存しない非専門家状態-アクションペアのみが利用可能なMDPを解決することを目的としている。
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実のシナリオで有用である。
現状のDICE(DIstribution Correction Estimation)手法は、専門家と学習者の政策間の状態占有のばらつきを最小化し、重み付けされた行動クローニングを伴うポリシーを回復するが、その結果は二重領域における非ロマンス最適化のため、不完全な軌道から学習すると不安定である。
この問題に対処するため,本論文では,観測から学習するトラジェクティブ・アウェア・イミテーション・ラーニング(TAILO)を提案する。
TAILOは、将来の軌道に沿った割引和を重み付けされた行動クローニングの重みとして用いている。
和の用語は、専門家の状態を識別することを目的とした判別器の出力によってスケールされる。
単純さにもかかわらず、タスクに依存しないデータに専門家の行動の軌跡やセグメントが存在する場合、TAILOはうまく機能する。
複数のテストベッドにわたる実験では、TAILOはより堅牢で効果的であり、特に不完全な軌道を持つ。
関連論文リスト
- Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - How to Leverage Diverse Demonstrations in Offline Imitation Learning [39.24627312800116]
不完全な実演を伴うオフライン模倣学習(IL)は、専門家データの不足により注目を集めている。
本稿では, 結果の状態に基づいて正の挙動を識別する, 単純で効果的なデータ選択手法を提案する。
次に、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-05-24T04:56:39Z) - Align Your Intents: Offline Imitation Learning via Optimal Transport [3.1728695158666396]
模擬エージェントは,専門家の観察からのみ,望ましい行動を学ぶことができることを示す。
AILOT法では,データに空間距離を交互に組み込んだインテントの形で,状態の特殊表現を行う。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れていることを報告した。
論文 参考訳(メタデータ) (2024-02-20T14:24:00Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - LobsDICE: Offline Imitation Learning from Observation via Stationary
Distribution Correction Estimation [37.31080581310114]
定常分布の空間における最適化を通じて専門家のポリシーを模倣することを学ぶオフラインのifOアルゴリズムであるLobsDICEを提案する。
提案アルゴリズムは,専門家によって誘導される2つの状態遷移分布とエージェントポリシーとのばらつきを最小限に抑える,単一の凸最小化問題を解く。
論文 参考訳(メタデータ) (2022-02-28T04:24:30Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Benchmarking Deep Models for Salient Object Detection [67.07247772280212]
汎用SALOD(General SALient Object Detection)ベンチマークを構築し,複数のSOD手法の総合的な比較を行った。
以上の実験では、既存の損失関数は、通常いくつかの指標に特化しているが、他の指標には劣る結果が報告されている。
我々は,深層ネットワークに画素レベルと画像レベルの両方の監視信号を統合することにより,より識別的な特徴を学習するためのエッジ・アウェア・ロス(EA)を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:43:16Z) - Mitigating Covariate Shift in Imitation Learning via Offline Data
Without Great Coverage [27.122391441921664]
本稿では、エージェントがオンライン環境の相互作用を伴わずに専門家の実証者を模倣することを学習するオフラインImitation Learning(IL)について研究する。
その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。
オフラインデータ(MILO)からモデルベースのILを導入し,理論上も現実的にも,オフラインのIL問題を効率的に解決する。
論文 参考訳(メタデータ) (2021-06-06T18:31:08Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。