論文の概要: Embedding Contextual Information through Reward Shaping in Multi-Agent
Learning: A Case Study from Google Football
- arxiv url: http://arxiv.org/abs/2303.15471v1
- Date: Sat, 25 Mar 2023 10:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 17:54:49.144636
- Title: Embedding Contextual Information through Reward Shaping in Multi-Agent
Learning: A Case Study from Google Football
- Title(参考訳): マルチエージェント学習におけるリワードシェイピングによる文脈情報の埋め込み:Google Footballを事例として
- Authors: Chaoyi Gu, Varuna De Silva, Corentin Artaud, Rafael Pina
- Abstract要約: 我々は、報酬関数に文脈情報を埋め込むことで、新たな報酬形成手法を作成する。
Google Research Football (GRF) 環境でこれを実証する。
実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最新のMARLアルゴリズムに,報奨形法が有用であることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence has been used to help human complete difficult tasks
in complicated environments by providing optimized strategies for
decision-making or replacing the manual labour. In environments including
multiple agents, such as football, the most common methods to train agents are
Imitation Learning and Multi-Agent Reinforcement Learning (MARL). However, the
agents trained by Imitation Learning cannot outperform the expert demonstrator,
which makes humans hardly get new insights from the learnt policy. Besides,
MARL is prone to the credit assignment problem. In environments with sparse
reward signal, this method can be inefficient. The objective of our research is
to create a novel reward shaping method by embedding contextual information in
reward function to solve the aforementioned challenges. We demonstrate this in
the Google Research Football (GRF) environment. We quantify the contextual
information extracted from game state observation and use this quantification
together with original sparse reward to create the shaped reward. The
experiment results in the GRF environment prove that our reward shaping method
is a useful addition to state-of-the-art MARL algorithms for training agents in
environments with sparse reward signal.
- Abstract(参考訳): 人工知能は、意思決定や手作業の置き換えのために最適化された戦略を提供することによって、複雑な環境で人間の困難なタスクを完遂するのに役立つ。
サッカーのような複数のエージェントを含む環境では、エージェントを訓練する最も一般的な方法は模倣学習とマルチエージェント強化学習(marl)である。
しかし、イミテーション・ラーニングによって訓練されたエージェントは、専門家のデモレーターを上回り得ないため、学習方針から新たな洞察を得られることはほとんどない。
さらに、marlはクレジット割り当ての問題に陥りやすい。
スパース報酬信号を持つ環境では、この方法は非効率である。
本研究の目的は、上記の課題を解決するために、報酬関数に文脈情報を埋め込むことにより、新たな報酬形成手法を作ることである。
Google Research Football (GRF) 環境でこれを実証する。
ゲーム状態観測から抽出した文脈情報を定量化し、この定量化と元のスパース報酬を併用して、形状の報酬を生成する。
GRF環境における実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最先端のMARLアルゴリズムに,報奨形状法が有用であることを証明した。
関連論文リスト
- Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Logic-based Reward Shaping for Multi-Agent Reinforcement Learning [1.5483078145498084]
強化学習は、その環境から学び、観察された報酬を最大化するために探索に大きく依存する。
従来の作業では、タスクに基づいて報酬関数を合成する自動メカニズムを提供するために、オートマタとロジックベースの報酬整形と環境仮定を組み合わせた。
マルチエージェント強化学習における論理に基づく報酬形成は,様々なシナリオやタスクに対してどのように設計できるかを考察する。
論文 参考訳(メタデータ) (2022-06-17T16:30:27Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。
本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文 参考訳(メタデータ) (2020-08-12T10:23:35Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。