論文の概要: Advantage Alignment Algorithms
- arxiv url: http://arxiv.org/abs/2406.14662v1
- Date: Thu, 20 Jun 2024 18:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:08:45.619937
- Title: Advantage Alignment Algorithms
- Title(参考訳): アドバンテージアライメントアルゴリズム
- Authors: Juan Agustin Duque, Milad Aghajohari, Tim Cooijmans, Tianyu Zhang, Aaron Courville,
- Abstract要約: 本稿では,効率よく直感的に対戦型シェーピングを行うアルゴリズムであるAdvantage Alignmentを紹介する。
これは、互いに相反する行為の確率を増大させることで、あるゲームにおける競合するエージェントの利点を整合させることによって達成される。
- 参考スコア(独自算出の注目度): 8.670716621157352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing presence of artificially intelligent agents in everyday decision-making, from LLM assistants to autonomous vehicles, hints at a future in which conflicts may arise from each agent optimizing individual interests. In general-sum games these conflicts are apparent, where naive Reinforcement Learning agents get stuck in Pareto-suboptimal Nash equilibria. Consequently, opponent shaping has been introduced as a method with success at finding socially beneficial equilibria in social dilemmas. In this work, we introduce Advantage Alignment, a family of algorithms derived from first principles that perform opponent shaping efficiently and intuitively. This is achieved by aligning the advantages of conflicting agents in a given game by increasing the probability of mutually-benefiting actions. We prove that existing opponent shaping methods, including LOLA and LOQA, implicitly perform Advantage Alignment. Compared to these works, Advantage Alignment mathematically simplifies the formulation of opponent shaping and seamlessly works for continuous action domains. We also demonstrate the effectiveness of our algorithm in a wide range of social dilemmas, achieving state of the art results in each case, including a social dilemma version of the Negotiation Game.
- Abstract(参考訳): LLMアシスタントから自動運転車まで、日常的な意思決定における人工知能エージェントの存在の増加は、個人の関心を最適化する各エージェントから衝突が発生するかもしれない未来を示唆している。
一般のゲームでは、これらの対立は明らかであり、単純強化学習エージェントがPareto-suboptimal Nash equilibriaで立ち往生する。
その結果、社会的ジレンマにおける社会的に有益な均衡を見出す方法として、反対の整形が導入された。
本研究は,提案するアルゴリズム群であるAdvantage Alignmentを紹介する。
これは、互いに相反する行為の確率を増大させることで、あるゲームにおける競合するエージェントの利点を整合させることによって達成される。
LOLA や LOQA などの既存手法がアドバンテージアライメント(Advantage Alignment)を暗黙的に実行することを示す。
これらの作品と比較すると、アドバンテージアライメントは数学的に反対のシェーピングの定式化を単純化し、連続的な作用領域に対してシームレスに作用する。
また,ソーシャルジレンマにおけるアルゴリズムの有効性を実証し,ソーシャルジレンマ版のNegotiation Gameを含む各ケースで最先端の結果を達成した。
関連論文リスト
- Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents [2.1301560294088318]
自己関心の個人間の協力は、自然界で広く見られる現象であるが、人工的な知的エージェント間の相互作用においては、いまだ解明されていない。
そこで,本研究では,リターンに対する相手の行動の影響を再現するために,本質的に動機づけられた強化学習エージェントであるReciprocatorを紹介する。
本研究では,同時学習において,時間的に拡張された社会的ジレンマにおける協調を促進するために,共用者が利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T06:07:27Z) - LOQA: Learning with Opponent Q-Learning Awareness [1.1666234644810896]
本稿では,エージェントの個々のユーティリティを最適化する分散型強化学習アルゴリズムであるLearning with Opponent Q-Learning Awareness (LOQA)を紹介する。
LOQAは、Iterated Prisoner's DilemmaやCoin Gameのようなベンチマークシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-02T06:33:01Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z) - Cooperative Inverse Reinforcement Learning [64.60722062217417]
協調強化学習(CIRL)としての値アライメント問題の形式的定義を提案する。
CIRL問題は、人間とロボットの2人のエージェントによる協調的部分情報ゲームであり、どちらも人間の報酬関数に従って報酬を受けるが、ロボットは当初それが何であるかを知らない。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは活発な教育、活発な学習、コミュニケーション行動などの行動を生み出す。
論文 参考訳(メタデータ) (2016-06-09T22:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。