論文の概要: Persuading a Learning Agent
- arxiv url: http://arxiv.org/abs/2402.09721v2
- Date: Thu, 22 Feb 2024 05:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:42:10.196955
- Title: Persuading a Learning Agent
- Title(参考訳): 学習エージェントを説得する
- Authors: Tao Lin, Yiling Chen
- Abstract要約: 本研究では,主役がコミットメント能力を持っておらず,エージェントがアルゴリズムを用いて主役の信号に応答することを繰り返すベイズ的説得問題について検討する。
エージェントが文脈非回帰学習アルゴリズムを使用する場合、主元は、約束付き古典的非学習モデルにおいて、主元が最適に有効に近いユーティリティを保証できることを示す。
- 参考スコア(独自算出の注目度): 7.378697321839991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a repeated Bayesian persuasion problem (and more generally, any
generalized principal-agent problem with complete information) where the
principal does not have commitment power and the agent uses algorithms to learn
to respond to the principal's signals. We reduce this problem to a one-shot
generalized principal-agent problem with an approximately-best-responding
agent. This reduction allows us to show that: if the agent uses contextual
no-regret learning algorithms, then the principal can guarantee a utility that
is arbitrarily close to the principal's optimal utility in the classic
non-learning model with commitment; if the agent uses contextual no-swap-regret
learning algorithms, then the principal cannot obtain any utility significantly
more than the optimal utility in the non-learning model with commitment. The
difference between the principal's obtainable utility in the learning model and
the non-learning model is bounded by the agent's regret (swap-regret). If the
agent uses mean-based learning algorithms (which can be no-regret but not
no-swap-regret), then the principal can do significantly better than the
non-learning model. These conclusions hold not only for Bayesian persuasion,
but also for any generalized principal-agent problem with complete information,
including Stackelberg games and contract design.
- Abstract(参考訳): 主旨がコミットメントパワーを持っておらず、エージェントが主旨の信号に応答するためにアルゴリズムを用いて学習するベイズ説得問題(より一般的には、完全な情報を持つ一般化主従問題)について検討する。
この問題を, ほぼベスト対応剤を用いた一括一般化主エージェント問題に還元する。
この削減により、エージェントが文脈非回帰学習アルゴリズムを使用する場合、プリンシパルは、従来の非学習モデルにおいて、プリンシパルの最適ユーティリティに任意に近いユーティリティをコミットメントで保証することができ、もしエージェントが文脈非相対学習アルゴリズムを使用する場合、プリンシパルは、コミットメントを伴う非学習モデルにおいて最適なユーティリティよりもはるかに多くのユーティリティを得ることができない。
学習モデルにおけるプリンシパルの取得可能なユーティリティと非学習モデルの違いは、エージェントの後悔(swap-regret)によって制限される。
エージェントが平均に基づく学習アルゴリズム(非学習だが非学習的)を使用する場合、プリンシパルは非学習モデルよりもはるかに優れている。
これらの結論はベイズ的説得だけでなく、スタックルバーグゲームや契約設計を含む完全な情報を持つ一般の主エージェント問題にも当てはまる。
関連論文リスト
- Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg
Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Learning Optimal Contracts: How to Exploit Small Action Spaces [41.42695064501541]
本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
論文 参考訳(メタデータ) (2023-09-18T14:18:35Z) - Sequential Principal-Agent Problems with Communication: Efficient
Computation and Learning [27.50523143132825]
両端に不完全な情報を持つ主要因とエージェント間の逐次的意思決定問題について検討する。
このモデルでは、プリンシパルとエージェントは環境の中で相互作用し、それぞれが他で利用できない状態についての観測にプライベートである。
本稿では,アルゴリズムのアルゴリズムを用いて,主成分の最適ポリシを加法近似まで計算する。
論文 参考訳(メタデータ) (2023-06-06T16:20:44Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - BayGo: Joint Bayesian Learning and Information-Aware Graph Optimization [48.30183416069897]
BayGoは、ベイズ学習とグラフ最適化のフレームワークである。
本研究の枠組みは、完全連結および恒星トポロジーグラフと比較して、より高速な収束と精度を実現する。
論文 参考訳(メタデータ) (2020-11-09T11:16:55Z) - Student/Teacher Advising through Reward Augmentation [0.0]
トランスファーラーニング(Transfer Learning)は、エージェントが別の問題を解決するための知識を利用することで、ある問題を学習するのを助けることを目的としている。
本稿では,教師/学生のフレームワークを,より汎用的な強化学習フレームワークに直接自然に適合させる手法を提案する。
論文 参考訳(メタデータ) (2020-02-07T18:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。