論文の概要: Paying to Do Better: Games with Payments between Learning Agents
- arxiv url: http://arxiv.org/abs/2405.20880v1
- Date: Fri, 31 May 2024 14:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:08:24.870553
- Title: Paying to Do Better: Games with Payments between Learning Agents
- Title(参考訳): より良い行動への支払い:学習エージェント間の支払いを伴うゲーム
- Authors: Yoav Kolumbus, Joe Halpern, Éva Tardos,
- Abstract要約: 競売のような繰り返しゲームでは、プレイヤーは通常、学習アルゴリズムを使用してアクションを選択する。
本稿では,エージェントのアルゴリズムに金銭的移転を取り入れたプレイヤーの影響について検討する。
このようなシナリオを捉えるための単純なゲーム理論モデルを提案する。
- 参考スコア(独自算出の注目度): 4.067193517689939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In repeated games, such as auctions, players typically use learning algorithms to choose their actions. The use of such autonomous learning agents has become widespread on online platforms. In this paper, we explore the impact of players incorporating monetary transfers into their agents' algorithms, aiming to incentivize behavior in their favor. Our focus is on understanding when players have incentives to make use of monetary transfers, how these payments affect learning dynamics, and what the implications are for welfare and its distribution among the players. We propose a simple game-theoretic model to capture such scenarios. Our results on general games show that in a broad class of games, players benefit from letting their learning agents make payments to other learners during the game dynamics, and that in many cases, this kind of behavior improves welfare for all players. Our results on first- and second-price auctions show that in equilibria of the ``payment policy game,'' the agents' dynamics can reach strong collusive outcomes with low revenue for the auctioneer. These results highlight a challenge for mechanism design in systems where automated learning agents can benefit from interacting with their peers outside the boundaries of the mechanism.
- Abstract(参考訳): 競売のような繰り返しゲームでは、プレイヤーは通常、学習アルゴリズムを使用してアクションを選択する。
このような自律学習エージェントの使用は、オンラインプラットフォームで広まりつつある。
本稿では,エージェントのアルゴリズムに金銭的移転を取り入れたプレイヤーの影響を考察し,行動のインセンティブを高めることを目的とした。
我々の焦点は、プレイヤーが金銭移動を利用するインセンティブを持つとき、これらの支払いが学習力学にどのように影響するか、そしてプレイヤー間の福祉とその分配にどのような影響を及ぼすかを理解することである。
このようなシナリオを捉えるための単純なゲーム理論モデルを提案する。
汎用ゲームでは,ゲーム中に学習エージェントが他の学習者に支払わせることで,プレイヤーの利益が得られ,多くの場合,このような行動がすべてのプレイヤーの福祉を改善することが示唆された。
第1および第2価格オークションの結果から,「支払政策ゲーム」の均衡において,エージェントのダイナミクスは,競売業者に低収入で強い共謀的な結果が得られることが示された。
これらの結果は、自動学習エージェントが、メカニズムの境界外の仲間と対話することの恩恵を受けることができるシステムにおけるメカニズム設計の課題を浮き彫りにしている。
関連論文リスト
- Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents [2.1301560294088318]
自己関心の個人間の協力は、自然界で広く見られる現象であるが、人工的な知的エージェント間の相互作用においては、いまだ解明されていない。
そこで,本研究では,リターンに対する相手の行動の影響を再現するために,本質的に動機づけられた強化学習エージェントであるReciprocatorを紹介する。
本研究では,同時学習において,時間的に拡張された社会的ジレンマにおける協調を促進するために,共用者が利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T06:07:27Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Improving Language Model Negotiation with Self-Play and In-Context
Learning from AI Feedback [97.54519989641388]
交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。
私たちが考慮している言語モデルのサブセットだけが、AIフィードバックから自己プレイし、取引価格を改善することができます。
論文 参考訳(メタデータ) (2023-05-17T11:55:32Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - Player Modeling using Behavioral Signals in Competitive Online Games [4.168733556014873]
本稿では,マッチング作成のためのプレイヤーのモデリングにおいて,演奏行動の異なる側面に対処することの重要性に焦点をあてる。
75,000以上のバトルロイヤルマッチのデータセットからいくつかの行動特性を設計し、プレイヤーモデルを作成しました。
次に、作成したモデルを使用して、データ内のさまざまなプレイヤーのグループのランクを予測します。
論文 参考訳(メタデータ) (2021-11-29T22:53:17Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Deep Reinforcement Learning for FlipIt Security Game [2.0624765454705654]
本稿では,エージェントが対戦者の異なるクラスに適応し,最適な対ストラテジーを学習する深層学習モデルについて述べる。
FlipItは、プレイヤー、攻撃者、ディフェンダーの双方が共有リソースの所有権を競う2人プレイのセキュリティゲームです。
我々のモデルは、Qラーニングと組み合わせたディープニューラルネットワークであり、リソースの所有時間の最大化のために訓練されている。
論文 参考訳(メタデータ) (2020-02-28T18:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。