論文の概要: Combining Tree-Search, Generative Models, and Nash Bargaining Concepts
in Game-Theoretic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.00797v1
- Date: Wed, 1 Feb 2023 23:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:48:58.177593
- Title: Combining Tree-Search, Generative Models, and Nash Bargaining Concepts
in Game-Theoretic Reinforcement Learning
- Title(参考訳): ゲーム理論強化学習における木探索,生成モデル,ナッシュ交渉概念の組み合わせ
- Authors: Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp, Daniel
Hennes, Paul Muller, Kate Larson, Yoram Bachrach, Michael P. Wellman
- Abstract要約: ポリシー空間対応 Oracleは標準強化学習を使ってレスポンスポリシーを計算している。
ナッシュバリ取り解法に基づく2つのメタストラテジー解法を導入する。
生成的モデリングによる探索は、トレーニング時間とテスト時間の両方において、より強力なポリシーを見出す。
- 参考スコア(独自算出の注目度): 34.21747345063115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiagent reinforcement learning (MARL) has benefited significantly from
population-based and game-theoretic training regimes. One approach,
Policy-Space Response Oracles (PSRO), employs standard reinforcement learning
to compute response policies via approximate best responses and combines them
via meta-strategy selection. We augment PSRO by adding a novel search procedure
with generative sampling of world states, and introduce two new meta-strategy
solvers based on the Nash bargaining solution. We evaluate PSRO's ability to
compute approximate Nash equilibrium, and its performance in two negotiation
games: Colored Trails, and Deal or No Deal. We conduct behavioral studies where
human participants negotiate with our agents ($N = 346$). We find that search
with generative modeling finds stronger policies during both training time and
test time, enables online Bayesian co-player prediction, and can produce agents
that achieve comparable social welfare negotiating with humans as humans
trading among themselves.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、人口ベースおよびゲーム理論のトレーニング体制から大きな恩恵を受けている。
Policy-Space Response Oracles (PSRO) というアプローチでは、標準的な強化学習を使用して、最も近いレスポンスを通じてレスポンスポリシーを計算し、メタストラテジー選択を通じてそれらを組み合わせている。
我々は,世界を生成的にサンプリングする新たなサーチ手順を追加することでPSROを強化し,ナッシュバーゲインソリューションに基づく2つのメタストラテジー解法を導入する。
我々は,PSROの近似ナッシュ均衡計算能力と2つのネゴシエーションゲーム(Colored Trails,Deal or No Deal)のパフォーマンスを評価する。
我々は、人間の参加者がエージェントと交渉する行動研究を行う(N = 346$)。
生成的モデリングによる検索は、トレーニング時間とテスト時間の両方において強力なポリシーを見つけ、オンラインベイズの共同プレイヤー予測を可能にし、人間との取引として人間と同等の社会福祉を実現するエージェントを生み出すことができる。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Best Response Shaping [1.0874100424278175]
LOLAとPOLAのエージェントは、相手のルックアヘッド最適化ステップを通じて、相互性に基づく協調政策を区別することで学習する。
彼らはいくつかの最適化ステップを考慮するので、そのリターンを最適化するために多くのステップを踏む学習相手がそれらを活用できるかもしれない。
そこで本研究では,Best Response Shaping (BRS) という新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-05T22:03:35Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning [14.37986882249142]
簡単なゲームRock, Paper, Scissorsの繰り返しプレイに基づくマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいて,エージェントの品質を測定するための指標について述べる。
論文 参考訳(メタデータ) (2023-03-02T15:06:52Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。