論文の概要: Policy Supervectors: General Characterization of Agents by their
Behaviour
- arxiv url: http://arxiv.org/abs/2012.01244v1
- Date: Wed, 2 Dec 2020 14:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:49:14.269363
- Title: Policy Supervectors: General Characterization of Agents by their
Behaviour
- Title(参考訳): 政策スーパーベクター:その行動によるエージェントの一般的特徴付け
- Authors: Anssi Kanervisto, Tomi Kinnunen, Ville Hautam\"aki
- Abstract要約: 訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
- 参考スコア(独自算出の注目度): 18.488655590845163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By studying the underlying policies of decision-making agents, we can learn
about their shortcomings and potentially improve them. Traditionally, this has
been done either by examining the agent's implementation, its behaviour while
it is being executed, its performance with a reward/fitness function or by
visualizing the density of states the agent visits. However, these methods fail
to describe the policy's behaviour in complex, high-dimensional environments or
do not scale to thousands of policies, which is required when studying training
algorithms. We propose policy supervectors for characterizing agents by the
distribution of states they visit, adopting successful techniques from the area
of speech technology. Policy supervectors can characterize policies regardless
of their design philosophy (e.g. rule-based vs. neural networks) and scale to
thousands of policies on a single workstation machine. We demonstrate method's
applicability by studying the evolution of policies during reinforcement
learning, evolutionary training and imitation learning, providing insight on
e.g. how the search space of evolutionary algorithms is also reflected in
agent's behaviour, not just in the parameters.
- Abstract(参考訳): 意思決定エージェントの根底にある方針を研究することで、その欠点について学び、改善する可能性がある。
伝統的に、これはエージェントの実装、実行中の振る舞い、報酬/適合関数によるパフォーマンス、またはエージェントが訪問する状態の密度を可視化することによって行われる。
しかし、これらの手法は複雑な高次元環境におけるポリシーの振る舞いを記述するのに失敗し、トレーニングアルゴリズムを研究する際に必要となる何千ものポリシーにスケールしない。
本研究では,訪問状態の分布によってエージェントを特徴付けるための政策スーパーベクタを提案し,音声技術分野から成功した技術を採用する。
政策監督者は、デザイン哲学に関わらず(例えば、)政策を特徴づけることができる。
ルールベースの対ニューラルネットワーク)と、単一のワークステーションマシン上で数千のポリシーにスケールする。
本稿では,強化学習,進化訓練,模倣学習における政策の進化を研究することによって,その適用可能性を示す。
進化的アルゴリズムの探索空間は、パラメータだけでなくエージェントの振る舞いにも反映される。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reinforcement Learning Your Way: Agent Characterization through Policy
Regularization [0.0]
目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。
本手法は,学習中のエージェントの動作を誘導し,本質的な特徴付けを行う。
今後の課題として、個人金融顧客の投資ポートフォリオを、支出個性に基づいて最適化するエージェントを開発することを目的としている。
論文 参考訳(メタデータ) (2022-01-21T08:18:38Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。