論文の概要: SoftDICE for Imitation Learning: Rethinking Off-policy Distribution
Matching
- arxiv url: http://arxiv.org/abs/2106.03155v1
- Date: Sun, 6 Jun 2021 15:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 13:52:20.947714
- Title: SoftDICE for Imitation Learning: Rethinking Off-policy Distribution
Matching
- Title(参考訳): 模倣学習のためのSoftDICE:オフ・ポリティクスの分布マッチングを再考する
- Authors: Mingfei Sun, Anuj Mahajan, Katja Hofmann, Shimon Whiteson
- Abstract要約: SoftDICEは、模倣学習のための最先端のパフォーマンスを達成する。
我々は、模倣学習のための最先端のパフォーマンスを実現するSoftDICEを提案する。
- 参考スコア(独自算出の注目度): 61.20581291619333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SoftDICE, which achieves state-of-the-art performance for
imitation learning. SoftDICE fixes several key problems in ValueDICE, an
off-policy distribution matching approach for sample-efficient imitation
learning. Specifically, the objective of ValueDICE contains logarithms and
exponentials of expectations, for which the mini-batch gradient estimate is
always biased. Second, ValueDICE regularizes the objective with replay buffer
samples when expert demonstrations are limited in number, which however changes
the original distribution matching problem. Third, the re-parametrization trick
used to derive the off-policy objective relies on an implicit assumption that
rarely holds in training. We leverage a novel formulation of distribution
matching and consider an entropy-regularized off-policy objective, which yields
a completely offline algorithm called SoftDICE. Our empirical results show that
SoftDICE recovers the expert policy with only one demonstration trajectory and
no further on-policy/off-policy samples. SoftDICE also stably outperforms
ValueDICE and other baselines in terms of sample efficiency on Mujoco benchmark
tasks.
- Abstract(参考訳): 我々は、模倣学習のための最先端のパフォーマンスを実現するSoftDICEを提案する。
SoftDICEは、サンプル効率の模倣学習のためのオフ政治分布マッチングアプローチであるValueDICEにおいて、いくつかの重要な問題を解決する。
具体的には、ValueDICEの目的は、最小バッチ勾配推定が常にバイアスされる期待の対数と指数を含んでいる。
第二に、ValueDICEは、専門家によるデモンストレーションが制限された場合にバッファサンプルを再生することで目的を正規化します。
第三に、オフポリシーの目的を導出するために使われる再パラメータ化のトリックは、トレーニングでほとんど持たない暗黙の仮定に依存している。
本稿では,分散マッチングの新たな定式化を活用し,エントロピー正規化オフポリシー目標を考察し,softdice と呼ばれる完全オフラインアルゴリズムを提案する。
実験結果から,softdiceは1つのデモ軌跡とそれ以上のオン・ポリシー/オフ・ポリシーサンプルで専門家の方針を回復することを示した。
SoftDICEはまた、Mujocoベンチマークタスクのサンプル効率という点で、ValueDICEや他のベースラインを安定して上回る。
関連論文リスト
- Primal-Dual Spectral Representation for Off-policy Evaluation [39.24759979398673]
外部政治評価(OPE)は、強化学習(RL)における最も基本的な問題の1つである。
我々のアルゴリズムであるSpectralDICEは原始的かつ標本効率が高く、その性能は厳密な理論的なサンプル複雑性保証と様々なベンチマークでの徹底的な経験的評価によって支えられている。
論文 参考訳(メタデータ) (2024-10-23T03:38:31Z) - Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning [43.74071631716718]
DICEに基づく手法は,行動分布から最適な政策分布への変換とみなすことができる。
本稿では拡散モデルを用いて直接この変換を行う新しい手法Diffusion-DICEを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:36:42Z) - Reward-Punishment Reinforcement Learning with Maximum Entropy [3.123049150077741]
本稿では,長期政策エントロピーの最適化と報奨助成強化学習の目的を統合するソフトなDeep MaxPain'(SoftDMP)アルゴリズムを提案する。
我々のモチベーションは、従来の max' および min' 演算子を超えたアクション値の更新に使用される演算子のよりスムーズなバリエーションを促進することである。
論文 参考訳(メタデータ) (2024-05-20T05:05:14Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。