論文の概要: Learning in Online Principal-Agent Interactions: The Power of Menus
- arxiv url: http://arxiv.org/abs/2312.09869v2
- Date: Thu, 28 Dec 2023 21:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 00:52:15.961839
- Title: Learning in Online Principal-Agent Interactions: The Power of Menus
- Title(参考訳): オンラインプライマリエージェントインタラクションにおける学習 : メニューの力
- Authors: Minbiao Han, Michael Albert, Haifeng Xu
- Abstract要約: オンラインプリンシパルエージェント問題におけるユビキタス学習の課題について検討する。
校長は、エージェントの個人情報を、エージェントが歴史的相互作用において明らかにした好みから学習する。
- 参考スコア(独自算出の注目度): 33.23191766371596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a ubiquitous learning challenge in online principal-agent problems
during which the principal learns the agent's private information from the
agent's revealed preferences in historical interactions. This paradigm includes
important special cases such as pricing and contract design, which have been
widely studied in recent literature. However, existing work considers the case
where the principal can only choose a single strategy at every round to
interact with the agent and then observe the agent's revealed preference
through their actions. In this paper, we extend this line of study to allow the
principal to offer a menu of strategies to the agent and learn additionally
from observing the agent's selection from the menu. We provide a thorough
investigation of several online principal-agent problem settings and
characterize their sample complexities, accompanied by the corresponding
algorithms we have developed. We instantiate this paradigm to several important
design problems $-$ including Stackelberg (security) games, contract design,
and information design. Finally, we also explore the connection between our
findings and existing results about online learning in Stackelberg games, and
we offer a solution that can overcome a key hard instance of Peng et al.
(2019).
- Abstract(参考訳): 本研究では, エージェントの個人情報を, エージェントの履歴的相互作用における嗜好から学習するオンラインプリンシパルエージェント問題において, ユビキタスな学習課題について検討する。
このパラダイムには、最近の文献で広く研究されている価格や契約設計といった重要な特別なケースが含まれている。
しかし、既存の研究は、プリンシパルが各ラウンドで1つの戦略しか選択できず、エージェントと対話し、そのアクションを通じてエージェントが明らかにした嗜好を観察できる場合を考慮している。
本稿では,本研究を拡張して,エージェントに対して戦略のメニューを提供し,さらに,エージェントの選択をメニューから観察することから学ぶことを可能にする。
我々は,いくつかのオンラインプリンシパルエージェント問題の設定を徹底的に調査し,それらのサンプルの複雑さを,我々が開発したアルゴリズムを伴って特徴付ける。
私たちはこのパラダイムを,Stackelberg(セキュリティ)ゲームやコントラクト設計,情報設計など,いくつかの重要な設計問題に初期化します。
最後に,stackelbergゲームにおけるオンライン学習に関する調査結果と既存の結果との関係についても検討し,peng et al. (2019) の重要なハードインスタンスを克服可能なソリューションを提供する。
関連論文リスト
- A Survey on the Memory Mechanism of Large Language Model based Agents [66.4963345269611]
大規模言語モデル(LLM)に基づくエージェントは、最近、研究や産業コミュニティから多くの注目を集めている。
LLMベースのエージェントは、現実の問題を解決する基礎となる自己進化能力に特徴付けられる。
エージェント-環境相互作用をサポートする重要なコンポーネントは、エージェントのメモリである。
論文 参考訳(メタデータ) (2024-04-21T01:49:46Z) - ChatShop: Interactive Information Seeking with Language Agents [16.879814917881895]
新しい情報を戦略的に求める欲求と能力は 人間の学習に欠かせないものです
我々は,言語エージェントが戦略的探索を行う能力をテストするために設計された,人気のあるWebショッピングタスクを分析した。
提案課題は,エージェントが情報を探究し,徐々に蓄積する能力を効果的に評価できることを示す。
論文 参考訳(メタデータ) (2024-04-15T16:35:41Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - The Emergence of Adversarial Communication in Multi-Agent Reinforcement
Learning [6.18778092044887]
多くの現実世界の問題は、複数の自律エージェントの調整を必要とする。
最近の研究は、複雑なマルチエージェント協調を可能にする明示的なコミュニケーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。
一つの利己的なエージェントが高度に操作的なコミュニケーション戦略を学習し、協調的なエージェントチームを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-08-06T12:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。