論文の概要: Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis
- arxiv url: http://arxiv.org/abs/2206.09046v1
- Date: Fri, 17 Jun 2022 23:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 19:12:43.921244
- Title: Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis
- Title(参考訳): Beyond Rewards: オフラインマルチエージェント行動分析における階層的視点
- Authors: Shayegan Omidshafiei, Andrei Kapishnikov, Yannick Assogba, Lucas
Dixon, Been Kim
- Abstract要約: 本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
- 参考スコア(独自算出の注目度): 14.656957226255628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Each year, expert-level performance is attained in increasingly-complex
multiagent domains, notable examples including Go, Poker, and StarCraft II.
This rapid progression is accompanied by a commensurate need to better
understand how such agents attain this performance, to enable their safe
deployment, identify limitations, and reveal potential means of improving them.
In this paper we take a step back from performance-focused multiagent learning,
and instead turn our attention towards agent behavior analysis. We introduce a
model-agnostic method for discovery of behavior clusters in multiagent domains,
using variational inference to learn a hierarchy of behaviors at the joint and
local agent levels. Our framework makes no assumption about agents' underlying
learning algorithms, does not require access to their latent states or models,
and can be trained using entirely offline observational data. We illustrate the
effectiveness of our method for enabling the coupled understanding of behaviors
at the joint and local agent level, detection of behavior changepoints
throughout training, discovery of core behavioral concepts (e.g., those that
facilitate higher returns), and demonstrate the approach's scalability to a
high-dimensional multiagent MuJoCo control domain.
- Abstract(参考訳): 毎年、専門家レベルのパフォーマンスは、Go、Poker、StarCraft IIなど、ますます複雑なマルチエージェントドメインで達成されている。
この急激な進展には、このようなエージェントがこのパフォーマンスを達成する方法の理解を深め、安全なデプロイメントを可能にし、制限を特定し、改善する潜在的な手段を明らかにする必要性が伴う。
本稿では,パフォーマンスに着目したマルチエージェント学習から一歩引いて,エージェントの動作分析に注意を向ける。
本稿では,多エージェント領域における行動クラスタの探索のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの学習アルゴリズムを前提とせず、潜在状態やモデルへのアクセスを必要とせず、完全にオフラインの観測データを使ってトレーニングすることができる。
本稿では, 共同作業者レベルでの行動の理解, トレーニングを通しての行動変化点の検出, コア動作概念の発見(例えば, より高いリターンを促進するもの) と高次元マルチエージェント MuJoCo 制御領域へのアプローチのスケーラビリティを実証するための手法の有効性について述べる。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - On Diagnostics for Understanding Agent Training Behaviour in Cooperative
MARL [5.124364759305485]
我々は、経験的リターンのみに依存することは、エージェントの振る舞いに不明瞭な重要な洞察を与えるかもしれないと論じる。
本稿では,エージェントの動作に対する深い洞察を得るために,説明可能なAI(XAI)ツールの適用について検討する。
論文 参考訳(メタデータ) (2023-12-13T19:10:10Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。