論文の概要: Evolutionary Selective Imitation: Interpretable Agents by Imitation
Learning Without a Demonstrator
- arxiv url: http://arxiv.org/abs/2009.08403v1
- Date: Thu, 17 Sep 2020 16:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 08:53:08.373328
- Title: Evolutionary Selective Imitation: Interpretable Agents by Imitation
Learning Without a Demonstrator
- Title(参考訳): 進化的選択的模倣:実証のない模倣学習による解釈可能なエージェント
- Authors: Roy Eliya, J. Michael Herrmann
- Abstract要約: 進化戦略(ES)を介してエージェントを訓練する新しい手法を提案する。
イテレーション毎に、サンプルのサブセットを、これまで発見された最高の軌跡のサンプルに置き換えます。
このセットの評価手順は、教師付き学習を通じて、ランダムに初期化されたニューラルネットワーク(NN)を訓練して、セットを模倣する。
- 参考スコア(独自算出の注目度): 1.370633147306388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new method for training an agent via an evolutionary strategy
(ES), in which we iteratively improve a set of samples to imitate: Starting
with a random set, in every iteration we replace a subset of the samples with
samples from the best trajectories discovered so far. The evaluation procedure
for this set is to train, via supervised learning, a randomly initialised
neural network (NN) to imitate the set and then execute the acquired policy
against the environment. Our method is thus an ES based on a fitness function
that expresses the effectiveness of imitating an evolving data subset. This is
in contrast to other ES techniques that iterate over the weights of the policy
directly. By observing the samples that the agent selects for learning, it is
possible to interpret and evaluate the evolving strategy of the agent more
explicitly than in NN learning. In our experiments, we trained an agent to
solve the OpenAI Gym environment Bipedalwalker-v3 by imitating an
evolutionarily selected set of only 25 samples with a NN with only a few
thousand parameters. We further test our method on the Procgen game Plunder and
show here as well that the proposed method is an interpretable, small, robust
and effective alternative to other ES or policy gradient methods.
- Abstract(参考訳): エージェントを進化戦略 (ES) で訓練する方法を提案し, サンプルの集合を反復的に改良して模倣する: ランダムな集合から始めると, イテレーション毎に, サンプルのサブセットを, これまでに発見された最良の軌道からサンプルに置き換える。
このセットの評価手順は、教師付き学習を通じて、ランダムに初期化されたニューラルネットワーク(NN)を訓練し、そのセットを模倣し、取得した環境に対するポリシーを実行する。
したがって,本手法は,進化するデータサブセットを模倣する効果を表わす適合関数に基づくesである。
これは、ポリシーの重みを直接反復する他のES技術とは対照的である。
エージェントが学習のために選択したサンプルを観察することにより、NN学習よりもエージェントの進化戦略をより明示的に解釈し、評価することができる。
実験では,わずか数千のパラメータを持つNNを用いて,25個のサンプルからなる進化的に選択されたセットを模倣して,OpenAI Gym環境のBipedalwalker-v3を解くエージェントを訓練した。
我々はさらに,Procgen ゲーム Plunder 上で本手法を検証し,提案手法が他のESやポリシー勾配法に代わる解釈可能で,小さく,頑健で効果的な代替手段であることを示す。
関連論文リスト
- Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。
本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:02:44Z) - Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Continual Test-time Domain Adaptation via Dynamic Sample Selection [38.82346845855512]
本稿では,連続テスト時間領域適応(CTDA)のための動的サンプル選択法を提案する。
誤情報を誤用するリスクを低減するため,高品質と低品質の両方のサンプルに共同正負の学習を適用した。
私たちのアプローチは3Dポイントのクラウドドメインでも評価されており、その汎用性とより広範な適用可能性を示している。
論文 参考訳(メタデータ) (2023-10-05T06:35:21Z) - Learning Transferable Reward for Query Object Localization with Policy
Adaptation [49.994989590997655]
我々は、順序距離学習によって表される模範集合を用いて、伝達可能な報酬信号を学習する。
提案手法は,報酬信号が手軽に利用できない新しい環境へのテスト時ポリシー適用を可能にする。
論文 参考訳(メタデータ) (2022-02-24T22:52:14Z) - Active Learning for Deep Visual Tracking [51.5063680734122]
畳み込みニューラルネットワーク(CNN)は近年,単一目標追跡タスクに成功している。
本稿では,ディープ・ビジュアル・トラッキングのためのアクティブ・ラーニング手法を提案する。
アクティブラーニングの指導のもと、トレーニングされた深層CNNモデルに基づくトラッカーは、ラベリングコストを低減しつつ、競合的なトラッキング性能を達成することができる。
論文 参考訳(メタデータ) (2021-10-17T11:47:56Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。