論文の概要: Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents
- arxiv url: http://arxiv.org/abs/2104.10610v1
- Date: Wed, 21 Apr 2021 16:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:20:08.994997
- Title: Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents
- Title(参考訳): 適応的およびカスタマイズ可能な強化学習エージェントのためのポリシー融合
- Authors: Alessandro Sestini, Alexander Kuhnle, Andrew D. Bagdanov
- Abstract要約: 異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
- 参考スコア(独自算出の注目度): 137.86426963572214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article we study the problem of training intelligent agents using
Reinforcement Learning for the purpose of game development. Unlike systems
built to replace human players and to achieve super-human performance, our
agents aim to produce meaningful interactions with the player, and at the same
time demonstrate behavioral traits as desired by game designers. We show how to
combine distinct behavioral policies to obtain a meaningful "fusion" policy
which comprises all these behaviors. To this end, we propose four different
policy fusion methods for combining pre-trained policies. We further
demonstrate how these methods can be used in combination with Inverse
Reinforcement Learning in order to create intelligent agents with specific
behavioral styles as chosen by game designers, without having to define many
and possibly poorly-designed reward functions. Experiments on two different
environments indicate that entropy-weighted policy fusion significantly
outperforms all others. We provide several practical examples and use-cases for
how these methods are indeed useful for video game production and designers.
- Abstract(参考訳): 本稿では,ゲーム開発のための強化学習を用いた知的エージェントの育成に関する課題について考察する。
人間のプレイヤーを置き換え、超人的なパフォーマンスを達成するために構築されたシステムとは異なり、エージェントはプレイヤーとの有意義な相互作用を生み出すことを目的としている。
これらすべての行動を構成する有意義な「融合」政策を得るために、異なる行動政策を組み合わせる方法を示す。
そこで本研究では,事前学習した政策を組み合わせるための4つの異なる政策融合手法を提案する。
さらに,これらの手法を逆強化学習と組み合わせることで,ゲーム設計者が選択した特定の行動様式の知的エージェントを,多くの不適切な報酬関数を定義することなく作成できることを実証する。
2つの異なる環境での実験は、エントロピー重み付けされた政策融合が他の全てよりも著しく優れていることを示している。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
関連論文リスト
- Aligning Agents like Large Language Models [8.873319874424167]
高次元感覚情報から複雑な3D環境下での行動訓練は困難である。
我々は、模倣学習エージェントの望ましくない振る舞いと、不整合大言語モデル(LLM)の不整合応答の類似性を描く。
トレーニングエージェントにこのアプローチをうまく適用するための洞察とアドバイスを提供しながら、希望するモードを一貫して実行できるようにエージェントを調整できることを実証する。
論文 参考訳(メタデータ) (2024-06-06T16:05:45Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Contrastive Explanations for Comparing Preferences of Reinforcement
Learning Agents [16.605295052893986]
報酬関数が単純でない複雑なタスクでは、報酬関数に対する個々の目的の影響を調整することで、多重強化学習(RL)ポリシーを訓練することができる。
この研究では、同じタスクで訓練された2つのポリシーの振る舞いを、目的において異なる好みで比較します。
本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:57:57Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Opponent Learning Awareness and Modelling in Multi-Objective Normal Form
Games [5.0238343960165155]
エージェントはシステム内の他のエージェントの振る舞いについて学ぶことが不可欠である。
本稿では,非線形ユーティリティとの多目的マルチエージェント相互作用に対する,このようなモデリングの効果について述べる。
論文 参考訳(メタデータ) (2020-11-14T12:35:32Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。