論文の概要: Learning in Online Principal-Agent Interactions: The Power of Menus
- arxiv url: http://arxiv.org/abs/2312.09869v2
- Date: Thu, 28 Dec 2023 21:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 00:52:15.961839
- Title: Learning in Online Principal-Agent Interactions: The Power of Menus
- Title(参考訳): オンラインプライマリエージェントインタラクションにおける学習 : メニューの力
- Authors: Minbiao Han, Michael Albert, Haifeng Xu
- Abstract要約: オンラインプリンシパルエージェント問題におけるユビキタス学習の課題について検討する。
校長は、エージェントの個人情報を、エージェントが歴史的相互作用において明らかにした好みから学習する。
- 参考スコア(独自算出の注目度): 33.23191766371596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a ubiquitous learning challenge in online principal-agent problems
during which the principal learns the agent's private information from the
agent's revealed preferences in historical interactions. This paradigm includes
important special cases such as pricing and contract design, which have been
widely studied in recent literature. However, existing work considers the case
where the principal can only choose a single strategy at every round to
interact with the agent and then observe the agent's revealed preference
through their actions. In this paper, we extend this line of study to allow the
principal to offer a menu of strategies to the agent and learn additionally
from observing the agent's selection from the menu. We provide a thorough
investigation of several online principal-agent problem settings and
characterize their sample complexities, accompanied by the corresponding
algorithms we have developed. We instantiate this paradigm to several important
design problems $-$ including Stackelberg (security) games, contract design,
and information design. Finally, we also explore the connection between our
findings and existing results about online learning in Stackelberg games, and
we offer a solution that can overcome a key hard instance of Peng et al.
(2019).
- Abstract(参考訳): 本研究では, エージェントの個人情報を, エージェントの履歴的相互作用における嗜好から学習するオンラインプリンシパルエージェント問題において, ユビキタスな学習課題について検討する。
このパラダイムには、最近の文献で広く研究されている価格や契約設計といった重要な特別なケースが含まれている。
しかし、既存の研究は、プリンシパルが各ラウンドで1つの戦略しか選択できず、エージェントと対話し、そのアクションを通じてエージェントが明らかにした嗜好を観察できる場合を考慮している。
本稿では,本研究を拡張して,エージェントに対して戦略のメニューを提供し,さらに,エージェントの選択をメニューから観察することから学ぶことを可能にする。
我々は,いくつかのオンラインプリンシパルエージェント問題の設定を徹底的に調査し,それらのサンプルの複雑さを,我々が開発したアルゴリズムを伴って特徴付ける。
私たちはこのパラダイムを,Stackelberg(セキュリティ)ゲームやコントラクト設計,情報設計など,いくつかの重要な設計問題に初期化します。
最後に,stackelbergゲームにおけるオンライン学習に関する調査結果と既存の結果との関係についても検討し,peng et al. (2019) の重要なハードインスタンスを克服可能なソリューションを提供する。
関連論文リスト
- A Survey on the Memory Mechanism of Large Language Model based Agents [66.4963345269611]
大規模言語モデル(LLM)に基づくエージェントは、最近、研究や産業コミュニティから多くの注目を集めている。
LLMベースのエージェントは、現実の問題を解決する基礎となる自己進化能力に特徴付けられる。
エージェント-環境相互作用をサポートする重要なコンポーネントは、エージェントのメモリである。
論文 参考訳(メタデータ) (2024-04-21T01:49:46Z) - Persuading a Learning Agent [7.378697321839991]
本研究では,主役がコミットメント能力を持っておらず,エージェントがアルゴリズムを用いて主役の信号に応答することを繰り返すベイズ的説得問題について検討する。
エージェントが文脈非回帰学習アルゴリズムを使用する場合、主元は、約束付き古典的非学習モデルにおいて、主元が最適に有効に近いユーティリティを保証できることを示す。
論文 参考訳(メタデータ) (2024-02-15T05:30:47Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - ChoiceMates: Supporting Unfamiliar Online Decision-Making with
Multi-Agent Conversational Interactions [58.71970923420007]
提案するChoiceMatesは,LLMエージェントの動的セットとの対話を可能にするシステムである。
エージェントは、意見のあるペルソナとして、柔軟に会話に参加し、応答を提供するだけでなく、各エージェントの好みを引き出すために互いに会話する。
ChoiceMatesを従来のWeb検索とシングルエージェントと比較した結果,ChoiceMatesはより信頼性の高いWebと比較して,発見,潜水,情報管理に有用であることが判明した。
論文 参考訳(メタデータ) (2023-10-02T16:49:39Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - The Emergence of Adversarial Communication in Multi-Agent Reinforcement
Learning [6.18778092044887]
多くの現実世界の問題は、複数の自律エージェントの調整を必要とする。
最近の研究は、複雑なマルチエージェント協調を可能にする明示的なコミュニケーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。
一つの利己的なエージェントが高度に操作的なコミュニケーション戦略を学習し、協調的なエージェントチームを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-08-06T12:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。