論文の概要: Advantage Alignment Algorithms
- arxiv url: http://arxiv.org/abs/2406.14662v1
- Date: Thu, 20 Jun 2024 18:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:08:45.619937
- Title: Advantage Alignment Algorithms
- Title(参考訳): アドバンテージアライメントアルゴリズム
- Authors: Juan Agustin Duque, Milad Aghajohari, Tim Cooijmans, Tianyu Zhang, Aaron Courville,
- Abstract要約: 本稿では,効率よく直感的に対戦型シェーピングを行うアルゴリズムであるAdvantage Alignmentを紹介する。
これは、互いに相反する行為の確率を増大させることで、あるゲームにおける競合するエージェントの利点を整合させることによって達成される。
- 参考スコア(独自算出の注目度): 8.670716621157352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing presence of artificially intelligent agents in everyday decision-making, from LLM assistants to autonomous vehicles, hints at a future in which conflicts may arise from each agent optimizing individual interests. In general-sum games these conflicts are apparent, where naive Reinforcement Learning agents get stuck in Pareto-suboptimal Nash equilibria. Consequently, opponent shaping has been introduced as a method with success at finding socially beneficial equilibria in social dilemmas. In this work, we introduce Advantage Alignment, a family of algorithms derived from first principles that perform opponent shaping efficiently and intuitively. This is achieved by aligning the advantages of conflicting agents in a given game by increasing the probability of mutually-benefiting actions. We prove that existing opponent shaping methods, including LOLA and LOQA, implicitly perform Advantage Alignment. Compared to these works, Advantage Alignment mathematically simplifies the formulation of opponent shaping and seamlessly works for continuous action domains. We also demonstrate the effectiveness of our algorithm in a wide range of social dilemmas, achieving state of the art results in each case, including a social dilemma version of the Negotiation Game.
- Abstract(参考訳): LLMアシスタントから自動運転車まで、日常的な意思決定における人工知能エージェントの存在の増加は、個人の関心を最適化する各エージェントから衝突が発生するかもしれない未来を示唆している。
一般のゲームでは、これらの対立は明らかであり、単純強化学習エージェントがPareto-suboptimal Nash equilibriaで立ち往生する。
その結果、社会的ジレンマにおける社会的に有益な均衡を見出す方法として、反対の整形が導入された。
本研究は,提案するアルゴリズム群であるAdvantage Alignmentを紹介する。
これは、互いに相反する行為の確率を増大させることで、あるゲームにおける競合するエージェントの利点を整合させることによって達成される。
LOLA や LOQA などの既存手法がアドバンテージアライメント(Advantage Alignment)を暗黙的に実行することを示す。
これらの作品と比較すると、アドバンテージアライメントは数学的に反対のシェーピングの定式化を単純化し、連続的な作用領域に対してシームレスに作用する。
また,ソーシャルジレンマにおけるアルゴリズムの有効性を実証し,ソーシャルジレンマ版のNegotiation Gameを含む各ケースで最先端の結果を達成した。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Tackling Asymmetric and Circular Sequential Social Dilemmas with
Reinforcement Learning and Graph-based Tit-for-Tat [0.0]
社会的ジレンマは、複数の俳優が最高の結果を達成するために協力すべき状況を提供するが、怒りと恐怖は最悪の自己関心の問題に繋がる。
近年、深層強化学習の出現は、逐次社会ジレンマ(SSD)の導入により、社会ジレンマへの関心が復活した。
本稿では,エージェント間の協調の多様性をより一般化する新しい種類のマルコフゲームであるCircular Sequential Social Dilemma (CSSD)を用いて,SSDを拡張した。
論文 参考訳(メタデータ) (2022-06-26T15:42:48Z) - Learning in two-player games between transparent opponents [0.0]
2つの強化学習エージェントが互いにマトリックスゲームを繰り返すシナリオを考察する。
エージェントの意思決定は互いに透明であり、各エージェントはそれぞれのエージェントに対してどのように対戦するかを予測することができる。
その結果, 相互透明な意思決定と対人意識学習の組み合わせが, 単発受刑者のジレンマにおける相互協力に強く寄与していることが判明した。
論文 参考訳(メタデータ) (2020-12-04T15:41:07Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Cooperative Inverse Reinforcement Learning [64.60722062217417]
協調強化学習(CIRL)としての値アライメント問題の形式的定義を提案する。
CIRL問題は、人間とロボットの2人のエージェントによる協調的部分情報ゲームであり、どちらも人間の報酬関数に従って報酬を受けるが、ロボットは当初それが何であるかを知らない。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは活発な教育、活発な学習、コミュニケーション行動などの行動を生み出す。
論文 参考訳(メタデータ) (2016-06-09T22:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。