論文の概要: Exploration and Persuasion
- arxiv url: http://arxiv.org/abs/2410.17086v1
- Date: Tue, 22 Oct 2024 15:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:59.874971
- Title: Exploration and Persuasion
- Title(参考訳): 探索と説得
- Authors: Aleksandrs Slivkins,
- Abstract要約: 我々は、自己関心のあるエージェントが利用したいときの探索にインセンティブを与える方法を示す。
不確実性の下で決定を下す利己的なエージェントの集団を考える。
彼らは新しい情報を取得し、良い決定を下すためにこの情報を「発見」する。
これは、探査が費用がかかるためであるが、将来多くのエージェントにその利点が広がるためである。
- 参考スコア(独自算出の注目度): 58.87314871998078
- License:
- Abstract: How to incentivize self-interested agents to explore when they prefer to exploit? Consider a population of self-interested agents that make decisions under uncertainty. They "explore" to acquire new information and "exploit" this information to make good decisions. Collectively they need to balance these two objectives, but their incentives are skewed toward exploitation. This is because exploration is costly, but its benefits are spread over many agents in the future. "Incentivized Exploration" addresses this issue via strategic communication. Consider a benign ``principal" which can communicate with the agents and make recommendations, but cannot force the agents to comply. Moreover, suppose the principal can observe the agents' decisions and the outcomes of these decisions. The goal is to design a communication and recommendation policy which (i) achieves a desirable balance between exploration and exploitation, and (ii) incentivizes the agents to follow recommendations. What makes it feasible is "information asymmetry": the principal knows more than any one agent, as it collects information from many. It is essential that the principal does not fully reveal all its knowledge to the agents. Incentivized exploration combines two important problems in, resp., machine learning and theoretical economics. First, if agents always follow recommendations, the principal faces a multi-armed bandit problem: essentially, design an algorithm that balances exploration and exploitation. Second, interaction with a single agent corresponds to "Bayesian persuasion", where a principal leverages information asymmetry to convince an agent to take a particular action. We provide a brief but self-contained introduction to each problem through the lens of incentivized exploration, solving a key special case of the former as a sub-problem of the latter.
- Abstract(参考訳): 自己関心のエージェントにインセンティブを与えるには、どうすればよいのか?
不確実性の下で意思決定を行う利己的なエージェントの数を考えてみましょう。
彼らは新しい情報を取得し、良い決定を下すためにこの情報を「発見」する。
この2つの目標を総合的にバランスさせる必要があるが、そのインセンティブは搾取に向けて歪められている。
これは、探査が費用がかかるためであるが、将来多くのエージェントにその利点が広がるためである。
インセンティブ付き探索」は戦略的コミュニケーションを通じてこの問題に対処する。
エージェントと通信し、レコメンデーションを行うことができるが、エージェントに従わざるを得ない、良心的な ``principal' を考える。
さらに、プリンシパルがエージェントの判断とこれらの決定の結果を観察できると仮定する。
目標は、コミュニケーションとレコメンデーションのポリシーを設計することである。
一 探検と搾取の相違を好ましく達成し、
(ii)勧告に従うようエージェントにインセンティブを与える。
プリンシパルは多くの情報を集めるため、どのエージェントよりも多くを知っている。
校長がすべての知識をエージェントに完全に公開することが不可欠である。
インセンティブ付き探索は、respという2つの重要な問題を組み合わせる。
機械学習と理論経済学です
まず、エージェントが常にレコメンデーションに従う場合、プリンシパルはマルチアームの盗賊問題に直面します。
第二に、1つのエージェントとの相互作用は「ベイジアン説得(Bayesian persuasion)」に対応し、主成分は情報非対称性を利用してエージェントに特定のアクションを取るように説得する。
我々は、インセンティブ付き探索のレンズを通して、各問題を短時間ながら自己完結した紹介を行い、後者のサブプロブレムとして、前者のキーケースを解く。
関連論文リスト
- Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Information Design in Multi-Agent Reinforcement Learning [61.140924904755266]
強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
論文 参考訳(メタデータ) (2023-05-08T07:52:15Z) - (Almost) Free Incentivized Exploration from Decentralized Learning
Agents [27.012893220438702]
マルチアーム・バンディット(MAB)におけるインセンティブ付き探索は、近年の関心と多くの進歩を目撃している。
複数の長期戦略エージェントによるインセンティブ付き探索について検討する。
この研究の重要な観察は、戦略エージェントの本質的な学習利益の要求が「自由な引き金」を提供することで、プリンシパルの探究を損なう代わりに)必要となることである。
論文 参考訳(メタデータ) (2021-10-27T17:55:19Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。