論文の概要: ABC: Adversarial Behavioral Cloning for Offline Mode-Seeking Imitation
Learning
- arxiv url: http://arxiv.org/abs/2211.04005v1
- Date: Tue, 8 Nov 2022 04:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:26:06.096927
- Title: ABC: Adversarial Behavioral Cloning for Offline Mode-Seeking Imitation
Learning
- Title(参考訳): abc:オフラインモードシーキング模倣学習のための敵対的行動クローニング
- Authors: Eddy Hudson and Ishan Durugkar and Garrett Warnell and Peter Stone
- Abstract要約: 本稿では,GAN(Generative Adversarial Network)トレーニングの要素を取り入れて,モード探索行動を示す行動クローニング(BC)の修正版を紹介する。
我々は,DeepMind Control スイートから Hopper をベースとした玩具ドメインとドメイン上でABC を評価し,モード探索により標準 BC よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 48.033516430071494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a dataset of expert agent interactions with an environment of interest,
a viable method to extract an effective agent policy is to estimate the maximum
likelihood policy indicated by this data. This approach is commonly referred to
as behavioral cloning (BC). In this work, we describe a key disadvantage of BC
that arises due to the maximum likelihood objective function; namely that BC is
mean-seeking with respect to the state-conditional expert action distribution
when the learner's policy is represented with a Gaussian. To address this
issue, we introduce a modified version of BC, Adversarial Behavioral Cloning
(ABC), that exhibits mode-seeking behavior by incorporating elements of GAN
(generative adversarial network) training. We evaluate ABC on toy domains and a
domain based on Hopper from the DeepMind Control suite, and show that it
outperforms standard BC by being mode-seeking in nature.
- Abstract(参考訳): 専門家エージェントが関心のある環境と相互作用するデータセットが与えられると、効果的なエージェントポリシーを抽出するための実行可能な方法は、このデータで示される最大確率ポリシーを推定することである。
この手法は一般に行動クローニング(BC)と呼ばれる。
本研究は,学習者の方針がガウス語で表される場合,bc が状態的専門家の行動分布に対して平均的に参照されるという,bc の重要な欠点を述べる。
そこで本研究では,gan(generative adversarial network)トレーニングの要素を組み込んだモードシーキング行動を示す,bcの修正版であるadversarial behavior clone (abc)を提案する。
我々は,DeepMind Control スイートから Hopper をベースとした玩具ドメインとドメイン上でABC を評価し,モード探索により標準 BC よりも優れていることを示す。
関連論文リスト
- From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
ビヘイビアクローン(BC)は印象的な機能を実現しているが、アセンブリのようなオブジェクトの正確な整合と挿入を必要とするタスクに対する信頼性の高いポリシーを学ぶには、模倣が不十分である。
ResiP(Residual for Precise Manipulation)は、RLで訓練された完全閉ループ残差ポリシで、凍結したチャンクされたBCモデルを拡張することで、これらの課題をサイドステップで進める。
高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - ADR-BC: Adversarial Density Weighted Regression Behavior Cloning [29.095342729527733]
イミテーションラーニング(IL)法は、まず報酬やQ関数を定式化し、次にこの形の関数を強化学習フレームワーク内で使用して経験則を最適化する。
本稿では,ADR-BCを提案する。
ADR-BCは、一段階の行動クローニングフレームワークとして、多段階のRLフレームワークに関連する累積バイアスを回避する。
論文 参考訳(メタデータ) (2024-05-28T06:59:16Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Learnable Behavior Control: Breaking Atari Human World Records via
Sample-Efficient Behavior Selection [56.87650511573298]
本稿では,LBC(Learable Behavioral Control)と呼ばれるフレームワークを提案する。
我々のエージェントは10077.52%の平均正規化スコアを達成し、1Bのトレーニングフレーム内で24人の世界記録を突破した。
論文 参考訳(メタデータ) (2023-05-09T08:00:23Z) - TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from
Mixed Datasets [118.22975463000928]
エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。
1) RL信号の最適化と行動クローニング(BC)信号の最適なトレードオフは、異なる行動ポリシーによって引き起こされる行動カバレッジの変化によって異なる状態に変化する。
本稿では,TD3アルゴリズムに基づくBC正規化器として,適応重み付き逆KL(Kulback-Leibler)分散を用いることにより,両課題に対処する。
論文 参考訳(メタデータ) (2022-12-05T09:36:23Z) - Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning [7.462336024223669]
主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
論文 参考訳(メタデータ) (2022-11-21T19:10:27Z) - Collapse by Conditioning: Training Class-conditional GANs with Limited
Data [109.30895503994687]
非条件学習を活用することにより、観測モード崩壊を効果的に防止する条件付きGAN(cGAN)のトレーニング戦略を提案する。
我々のトレーニング戦略は、無条件のGANから始まり、徐々に条件情報をジェネレータと目的関数に注入する。
安定したトレーニングだけでなく,高品質な画像を生成するために,限られたデータでcGANを訓練する手法を提案する。
論文 参考訳(メタデータ) (2022-01-17T18:59:23Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。