論文の概要: AnyMorph: Learning Transferable Polices By Inferring Agent Morphology
- arxiv url: http://arxiv.org/abs/2206.12279v1
- Date: Fri, 17 Jun 2022 22:23:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 01:18:55.841244
- Title: AnyMorph: Learning Transferable Polices By Inferring Agent Morphology
- Title(参考訳): AnyMorph: エージェント形態を推論してトランスファー可能な警察を学習する
- Authors: Brandon Trabucco, Mariano Phielipp, Glen Berseth
- Abstract要約: 強化学習に対する原型的アプローチは、新しい形態ごとに特定のエージェントにスクラッチから調整されたトレーニングポリシーを含む。
最近の研究は、形態素に依存しない政策が、再訓練することなく、新しい形態素を持つ新しいエージェントに移行できるかどうかを調べることで、政策の再訓練をなくすことを目的としている。
本稿では, 強化学習目標から直接形態素の表現を学習するデータ駆動手法を提案する。
我々のアルゴリズムは、エージェントのモルフォロジーの記述を事前に必要とせずに、新しいエージェントモルフォロジーに一般化するためのポリシーを訓練できる最初の強化学習アルゴリズムである。
- 参考スコア(独自算出の注目度): 11.500794331856337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prototypical approach to reinforcement learning involves training
policies tailored to a particular agent from scratch for every new morphology.
Recent work aims to eliminate the re-training of policies by investigating
whether a morphology-agnostic policy, trained on a diverse set of agents with
similar task objectives, can be transferred to new agents with unseen
morphologies without re-training. This is a challenging problem that required
previous approaches to use hand-designed descriptions of the new agent's
morphology. Instead of hand-designing this description, we propose a
data-driven method that learns a representation of morphology directly from the
reinforcement learning objective. Ours is the first reinforcement learning
algorithm that can train a policy to generalize to new agent morphologies
without requiring a description of the agent's morphology in advance. We
evaluate our approach on the standard benchmark for agent-agnostic control, and
improve over the current state of the art in zero-shot generalization to new
agents. Importantly, our method attains good performance without an explicit
description of morphology.
- Abstract(参考訳): 強化学習に対する原型的アプローチは、新しい形態ごとに特定のエージェントにスクラッチから調整されたトレーニングポリシーを含む。
最近の研究は、類似のタスク目的を持つ多様なエージェントセットで訓練された形態非依存のポリシーが、再訓練することなく、新しいエージェントに移行できるかどうかを調べることによって、ポリシーの再訓練を廃止することを目的としている。
これは、新しいエージェントのモルフォロジーを手作業で記述するために、以前のアプローチを必要とする難しい問題である。
この記述を手作業で設計する代わりに,強化学習目標から直接形態素表現を学習するデータ駆動手法を提案する。
oursは,エージェントの形態を事前に記述することなく,新たなエージェント形態に一般化するポリシをトレーニング可能な,最初の強化学習アルゴリズムである。
我々は,エージェント非依存制御のための標準ベンチマークのアプローチを評価し,新しいエージェントに対するゼロショット一般化技術の現状を改善した。
重要なことに,本手法は形態素の明示的な記述を伴わずに良好な性能を発揮する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Probe-Based Interventions for Modifying Agent Behavior [4.324022085722613]
本研究では,事前学習したニューラルネットの表現を,外的特性に応じて更新する手法を開発した。
実験では,多種多様なニューラルネットワークに対するヒトエージェントチームのパフォーマンス向上のために,我々の手法がどのように用いられるかを示す。
論文 参考訳(メタデータ) (2022-01-26T19:14:00Z) - Task-Agnostic Morphology Evolution [94.97384298872286]
モルフォロジーと振る舞いを共同適用する現在のアプローチでは、特定のタスクの報酬をモルフォロジー最適化のシグナルとして使用します。
これはしばしば高価なポリシー最適化を必要とし、一般化するために構築されていないタスクに依存した形態をもたらす。
我々は,これらの問題を緩和するための新しいアプローチであるタスク非依存形態進化(tame)を提案する。
論文 参考訳(メタデータ) (2021-02-25T18:59:21Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z) - Agent Modelling under Partial Observability for Deep Reinforcement
Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。
制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。
これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文 参考訳(メタデータ) (2020-06-16T18:43:42Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。