論文の概要: Information Design with Unknown Prior
- arxiv url: http://arxiv.org/abs/2410.05533v1
- Date: Sat, 12 Oct 2024 02:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:08:20.528083
- Title: Information Design with Unknown Prior
- Title(参考訳): 未知の事前情報設計
- Authors: Tao Lin, Ce Li,
- Abstract要約: 本稿では,情報デザイナーが事前に把握していない繰り返しの説得問題について検討する。
インフォメーションデザイナは、レシーバとの繰り返しのインタラクションからシグナリングスキームの設計を学ぶ。
情報デザイナが後悔する$O(sqrtmathrmrReg(T) T)$, $mathrmrReg(T)=o(T)$はレシーバの学習後悔の上限であることを示す。
- 参考スコア(独自算出の注目度): 5.929091942255738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical information design models (e.g., Bayesian persuasion and cheap talk) require players to have perfect knowledge of the prior distribution of the state of the world. Our paper studies repeated persuasion problems in which the information designer does not know the prior. The information designer learns to design signaling schemes from repeated interactions with the receiver. We design learning algorithms for the information designer to achieve no regret compared to using the optimal signaling scheme with known prior, under two models of the receiver's decision-making. (1) The first model assumes that the receiver knows the prior and can perform posterior update and best respond to signals. In this model, we design a learning algorithm for the information designer with $O(\log T)$ regret in the general case, and another algorithm with $\Theta(\log \log T)$ regret in the case where the receiver has only two actions. (2) The second model assumes that the receiver does not know the prior and employs a no-regret learning algorithm to take actions. We show that the information designer can achieve regret $O(\sqrt{\mathrm{rReg}(T) T})$, where $\mathrm{rReg}(T)=o(T)$ is an upper bound on the receiver's learning regret. Our work thus provides a learning foundation for the problem of information design with unknown prior.
- Abstract(参考訳): 古典的な情報デザインモデル(例えばベイジアン説得と安価な話し方)は、プレイヤーに世界の以前の分布について完全な知識を持つことを要求する。
本稿は,情報デザイナーが事前を知らないという,繰り返しの説得問題について考察する。
インフォメーションデザイナは、レシーバとの繰り返しのインタラクションからシグナリングスキームの設計を学ぶ。
我々は,情報設計者の学習アルゴリズムを,受信者の意思決定の2つのモデルの下で,既知の最適シグナリング方式を使用する場合と比較して,後悔しないよう設計する。
1)第1モデルは、受信者が事前を知っていると仮定し、後続更新を行い、信号に最も反応する。
本モデルでは, 一般的な場合では$O(\log T)$後悔する情報デザイナのための学習アルゴリズムを設計し, 受信側が2つのアクションしか持たない場合には$\Theta(\log \log T)$後悔する別のアルゴリズムを設計する。
2)第2のモデルは、受信側が事前を知らないと仮定し、アクションを取るために非回帰学習アルゴリズムを用いる。
情報デザイナが後悔する$O(\sqrt{\mathrm{rReg}(T) T})$, $\mathrm{rReg}(T)=o(T)$はレシーバの学習後悔の上限であることを示す。
そこで本研究は,未知の事前情報設計問題に対する学習基盤を提供する。
関連論文リスト
- Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Learning How to Strategically Disclose Information [6.267574471145217]
送信者が未知のタイプの受信機と対話する情報設計のオンライン版を考える。
我々は、$mathcalO(sqrtT)$ regretが完全な情報フィードバックで達成可能であることを示す。
また,一般凸ユーティリティ関数に対して$mathcalO(sqrtT)$ regretを送信者が達成できる新しいパラメトリゼーションを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:44:16Z) - Inverse Problems with Learned Forward Operators [2.162017337541015]
本章は、2つの異なるパラダイムに従う学習前方演算子による逆問題における再構成手法についてレビューする。
射影による正規化の枠組みは、再構成を見つけるために使われる。
両方のメソッドは、フォワード演算子だけでなく、アジョイントのためにもトレーニングデータを必要とする。
論文 参考訳(メタデータ) (2023-11-21T11:15:14Z) - Information Design in Multi-Agent Reinforcement Learning [61.140924904755266]
強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
論文 参考訳(メタデータ) (2023-05-08T07:52:15Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Sequential Information Design: Learning to Persuade in the Dark [49.437419242582884]
本研究では,自己関心の受信者の行動に影響を及ぼそうとする情報発信者が直面する繰り返し情報設計問題について検討する。
各ラウンドにおいて、送信者は、シーケンシャル意思決定(SDM)問題におけるランダムイベントの実現を観察する。
これは、そのような情報をレシーバーに段階的に開示し、彼らが(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
論文 参考訳(メタデータ) (2022-09-08T17:08:12Z) - Dueling RL: Reinforcement Learning with Trajectory Preferences [30.011965198486635]
好みに基づく強化学習(PbRL)の問題を考える。
従来の強化学習とは異なり、エージェントは1ビット(0/1)の好みでのみフィードバックを受け取る。
本稿では,PbRL問題に非マルコフ的報酬を伴う形式的枠組みを定め,次元$d$の一般化線形モデルにより軌道の選好を符号化する。
論文 参考訳(メタデータ) (2021-11-08T22:17:36Z) - Multi-Receiver Online Bayesian Persuasion [51.94795123103707]
本研究では,未知の逆選択型の受信者に対して,送信者が繰り返し対面するオンライン学習フレームワークについて検討する。
オフラインモデルの慣習として、外部性やバイナリアクションのないケースに重点を置いています。
本稿では,損失関数を有限個に制限したオンライン学習問題に対処する一般的なオンライン降下スキームを提案する。
論文 参考訳(メタデータ) (2021-06-11T16:05:31Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。