論文の概要: How and Why to Manipulate Your Own Agent
- arxiv url: http://arxiv.org/abs/2112.07640v1
- Date: Tue, 14 Dec 2021 18:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:55:51.177265
- Title: How and Why to Manipulate Your Own Agent
- Title(参考訳): 自分のエージェントを操作する方法と理由
- Authors: Yoav Kolumbus, Noam Nisan
- Abstract要約: 我々は,何人ものユーザが繰り返しオンラインインタラクションを行う戦略的な設定を考察し,その代わりに繰り返し「ゲーム」をプレイする後悔を最小化するエージェントの支援を行う。
エージェントの繰り返しゲームにおけるダイナミクスと平均結果について検討し,ユーザ間のメタゲームとして捉えた。
- 参考スコア(独自算出の注目度): 5.634825161148484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider strategic settings where several users engage in a repeated
online interaction, assisted by regret-minimizing agents that repeatedly play a
"game" on their behalf. We study the dynamics and average outcomes of the
repeated game of the agents, and view it as inducing a meta-game between the
users. Our main focus is on whether users can benefit in this meta-game from
"manipulating" their own agent by mis-reporting their parameters to it. We
formally define this "user-agent meta-game" model for general games, discuss
its properties under different notions of convergence of the dynamics of the
automated agents and analyze the equilibria induced on the users in 2x2 games
in which the dynamics converge to a single equilibrium.
- Abstract(参考訳): 我々は、複数のユーザが繰り返しオンラインインタラクションに携わる戦略的設定について検討し、後悔を最小限に抑えるエージェントが代わりに「ゲーム」を繰り返しプレイする。
エージェントの繰り返しゲームにおけるダイナミクスと平均的な結果を調査し,ユーザ間のメタゲームを誘発するものとして捉えた。
私たちの主な焦点は、パラメータを誤ってレポートすることで、ユーザが自身のエージェントを操作することで、このメタゲームのメリットを享受できるかどうかにあります。
汎用ゲームにおける「ユーザエージェントメタゲーム」モデルを形式的に定義し、その特性を自動エージェントのダイナミクスの収束という異なる概念の下で議論し、ダイナミクスが単一平衡に収束する2x2ゲームにおいてユーザによって引き起こされる均衡を分析する。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は,競争行動の社会的影響に基づく新しい強化学習機構を提案する。
提案モデルでは, 人工エージェントの学習を調節するための競合スコアを導出するために, 客観的, 社会的認知的メカニズムを集約する。
論文 参考訳(メタデータ) (2022-08-22T14:06:06Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games [0.0]
2人のプレイヤーのゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
本稿では,2人のプレイヤーのゼロサム同時アクションゲームにおける強化学習の基本概念を紹介し,このタイプのゲームがもたらすユニークな課題について論じる。
本稿では,これらの課題に対処する新たなエージェントを2つ紹介する。
論文 参考訳(メタデータ) (2021-10-10T16:03:44Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Evolutionary Game Theory Squared: Evolving Agents in Endogenously
Evolving Zero-Sum Games [27.510231246176033]
本稿では、エージェントとプレイするゲームの両方が戦略的に進化する競争環境のクラスを紹介し、分析する。
エージェントの人口は、現在の人口混合物に反対して進化するゼロサム競争で互いに競います。
驚くべきことに、エージェントとゲームのカオスな共進化にもかかわらず、システムは多くの規則性を示すことを証明しています。
論文 参考訳(メタデータ) (2020-12-15T15:54:46Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Equilibria for Games with Combined Qualitative and Quantitative
Objectives [15.590197778287616]
我々は,各プレイヤーが独立して戦略的に行動することが想定されるプロセスである並行ゲームについて研究する。
我々の主な結果は、そのようなゲームにおける厳密なエプシロン・ナッシュ均衡の存在を決定することは2ExpTime完全であるということである。
論文 参考訳(メタデータ) (2020-08-13T01:56:24Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。