論文の概要: Genetic Imitation Learning by Reward Extrapolation
- arxiv url: http://arxiv.org/abs/2301.07182v1
- Date: Tue, 3 Jan 2023 14:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-29 14:07:33.334524
- Title: Genetic Imitation Learning by Reward Extrapolation
- Title(参考訳): 報酬外挿による遺伝的模倣学習
- Authors: Boyuan Zheng, Jianlong Zhou and Fang Chen
- Abstract要約: 我々は,遺伝的アルゴリズムと模倣学習を統合したGenILという手法を提案する。
遺伝的アルゴリズムの関与は、様々なリターンで軌道を再現することで、データ効率を向上させる。
我々はAtariドメインとMujocoドメインの両方でGenILをテストし、その結果、以前の手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 6.340280403330784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning demonstrates remarkable performance in various domains.
However, imitation learning is also constrained by many prerequisites. The
research community has done intensive research to alleviate these constraints,
such as adding the stochastic policy to avoid unseen states, eliminating the
need for action labels, and learning from the suboptimal demonstrations.
Inspired by the natural reproduction process, we proposed a method called GenIL
that integrates the Genetic Algorithm with imitation learning. The involvement
of the Genetic Algorithm improves the data efficiency by reproducing
trajectories with various returns and assists the model in estimating more
accurate and compact reward function parameters. We tested GenIL in both Atari
and Mujoco domains, and the result shows that it successfully outperforms the
previous extrapolation methods over extrapolation accuracy, robustness, and
overall policy performance when input data is limited.
- Abstract(参考訳): 模倣学習は様々な領域で顕著な性能を示す。
しかし、模倣学習は多くの前提条件によって制限されている。
研究コミュニティは、目に見えない状態を避けるための確率的政策の追加、アクションラベルの必要性の排除、最適以下のデモンストレーションからの学習など、これらの制約を緩和するための集中的な研究を行っている。
そこで本研究では,遺伝的アルゴリズムと模倣学習を統合したGenILという手法を提案する。
遺伝的アルゴリズムの関与は、様々なリターンで軌道を再現することでデータ効率を改善し、より正確でコンパクトな報酬関数パラメータを推定するモデルを支援する。
我々は,AtariとMujocoの両ドメインでGenILを試験し,入力データに制限がある場合,外挿精度,ロバスト性,全体的なポリシー性能に対して,従来の外挿法よりも優れた性能を示した。
関連論文リスト
- Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Genetic-guided GFlowNets for Sample Efficient Molecular Optimization [33.270494123656746]
深層学習に基づく生成手法の最近の進歩は、将来性を示しているが、サンプル効率の問題に直面している。
本稿では,強力な遺伝的アルゴリズムを深く生成する手法として,サンプル効率のよい分子最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-05T04:12:40Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Missingness Augmentation: A General Approach for Improving Generative
Imputation Models [20.245637164975594]
生成的計算モデルのためのMisA(MisA)と呼ばれる新しいデータ拡張手法を提案する。
一般的な拡張技術として、MisAは生成的計算フレームワークに容易に統合できる。
実験結果から、最近提案された多くの生成的計算モデルの性能は、MisAにより大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-07-31T08:51:46Z) - Behavior-based Neuroevolutionary Training in Reinforcement Learning [3.686320043830301]
本稿では,神経進化的最適化と価値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。
この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。
その結果, 進化的手法のサンプル効率と学習速度を向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-17T15:40:42Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Active Learning for Gaussian Process Considering Uncertainties with
Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。
提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。
本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文 参考訳(メタデータ) (2020-04-23T02:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。