論文の概要: Welfare Diplomacy: Benchmarking Language Model Cooperation
- arxiv url: http://arxiv.org/abs/2310.08901v1
- Date: Fri, 13 Oct 2023 07:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:02:10.261769
- Title: Welfare Diplomacy: Benchmarking Language Model Cooperation
- Title(参考訳): 福祉外交:ベンチマーク言語モデルの協調
- Authors: Gabriel Mukobi, Hannah Erlebach, Niklas Lauffer, Lewis Hammond, Alan
Chan, Jesse Clifton
- Abstract要約: ゼロサムボードゲーム「福祉外交」の一般版「福祉外交」を紹介する。
我々は、福祉外交が協調能力のためのトレーニングインセンティブの明確化とより強力な評価を促進することを論じる。
我々の研究は、研究者がマルチエージェントAIシステムを開発し評価することを支援することにより、社会安全を促進することを目的としている。
- 参考スコア(独自算出の注目度): 3.3945117665106608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing capabilities and increasingly widespread deployment of AI systems
necessitate robust benchmarks for measuring their cooperative capabilities.
Unfortunately, most multi-agent benchmarks are either zero-sum or purely
cooperative, providing limited opportunities for such measurements. We
introduce a general-sum variant of the zero-sum board game Diplomacy -- called
Welfare Diplomacy -- in which players must balance investing in military
conquest and domestic welfare. We argue that Welfare Diplomacy facilitates both
a clearer assessment of and stronger training incentives for cooperative
capabilities. Our contributions are: (1) proposing the Welfare Diplomacy rules
and implementing them via an open-source Diplomacy engine; (2) constructing
baseline agents using zero-shot prompted language models; and (3) conducting
experiments where we find that baselines using state-of-the-art models attain
high social welfare but are exploitable. Our work aims to promote societal
safety by aiding researchers in developing and assessing multi-agent AI
systems. Code to evaluate Welfare Diplomacy and reproduce our experiments is
available at https://github.com/mukobi/welfare-diplomacy.
- Abstract(参考訳): 能力の増大とAIシステムの広範な展開は、その協調能力を測定するために堅牢なベンチマークを必要とする。
残念ながら、ほとんどのマルチエージェントベンチマークはゼロサムか純粋に協調的であり、そのような測定の機会は限られている。
我々は、ゼロサムボードゲーム「外交」の一般版「福祉外交」を導入し、プレイヤーは軍事的征服と国内福祉への投資のバランスをとる必要がある。
我々は、福祉外交が協調能力のためのトレーニングインセンティブの明確化とより強力な評価を促進することを論じる。
我々は,(1)福祉外交ルールを提案し,オープンソース外交エンジンを介して実施すること,(2)ゼロショット誘導言語モデルを用いたベースラインエージェントの構築,(3)最先端のモデルを用いたベースラインが高い社会福祉を実現するが,有効であることを示す実験を行った。
本研究は,マルチエージェントaiシステムの開発と評価を支援することにより,社会の安全を促進することを目的としている。
福祉外交を評価し、我々の実験を再現するためのコードはhttps://github.com/mukobi/welfare-diplomacy.comにある。
関連論文リスト
- On the Complexity of Learning to Cooperate with Populations of Socially Rational Agents [17.015143707851358]
有限繰り返しの2つのプレイヤー汎用行列ゲームにおいて,エージェントのテキストポピュレーションと協調する問題を考える。
以上の結果から,これらの仮定だけでは,標的個体群とテミセロショットの連携を確保するには不十分であることが示唆された。
効果的な協調戦略を学習するために必要なサンプル数について,上層および下層境界を提供する。
論文 参考訳(メタデータ) (2024-06-29T11:59:52Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Combining Tree-Search, Generative Models, and Nash Bargaining Concepts
in Game-Theoretic Reinforcement Learning [34.21747345063115]
ポリシー空間対応 Oracleは標準強化学習を使ってレスポンスポリシーを計算している。
ナッシュバリ取り解法に基づく2つのメタストラテジー解法を導入する。
生成的モデリングによる探索は、トレーニング時間とテスト時間の両方において、より強力なポリシーを見出す。
論文 参考訳(メタデータ) (2023-02-01T23:06:23Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - No-Press Diplomacy from Scratch [26.36204634856853]
超人的なアクション空間を持つゲームにおけるアクション探索と平衡近似のアルゴリズムについて述べる。
エージェントであるDORAをスクラッチからトレーニングし、人気のある2人プレイの外交版を作成し、超人的なパフォーマンスを実現することを示す。
我々は、我々の手法をフルスケールのノープレッシャー外交に拡張し、初めて人間データなしでエージェントをゼロから訓練する。
論文 参考訳(メタデータ) (2021-10-06T17:12:50Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Cooperation and Reputation Dynamics with Reinforcement Learning [6.219565750197311]
私達は信頼および協同を確立する方法として評判がいかに使用されるか示します。
好ましくない平衡への収束を緩和する2つのメカニズムを提案する。
この結果が進化ゲーム理論の文献とどのように関係しているかを示す。
論文 参考訳(メタデータ) (2021-02-15T12:48:56Z) - Cooperative Heterogeneous Deep Reinforcement Learning [47.97582814287474]
異種エージェントの利点を統合することで政策を学習できる協調的異種深層強化学習フレームワークを提案する。
グローバルエージェント(Global agent)は、他のエージェントからの経験を活用できる非政治エージェントである。
ローカルエージェント(英: local agent)は、地域を効果的に探索できる、政治上のエージェントまたは人口ベースの進化的エージェントである。
論文 参考訳(メタデータ) (2020-11-02T07:39:09Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games [22.38765498549914]
我々は多人数ゼロサムゲームの体系的な研究が人工知能研究の重要な要素であると主張している。
対称ゼロサム行列ゲームを用いて、アライアンス形成が社会的ジレンマと見なされることを示す。
我々は、強化学習をピアツーピア契約機構で強化し、アライアンスを発見・実施する方法を示す。
論文 参考訳(メタデータ) (2020-02-27T10:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。