論文の概要: Multi-Receiver Online Bayesian Persuasion
- arxiv url: http://arxiv.org/abs/2106.06480v1
- Date: Fri, 11 Jun 2021 16:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:07:36.438886
- Title: Multi-Receiver Online Bayesian Persuasion
- Title(参考訳): multi-receiver online bayesian persuasion
- Authors: Matteo Castiglioni, Alberto Marchesi, Andrea Celli, Nicola Gatti
- Abstract要約: 本研究では,未知の逆選択型の受信者に対して,送信者が繰り返し対面するオンライン学習フレームワークについて検討する。
オフラインモデルの慣習として、外部性やバイナリアクションのないケースに重点を置いています。
本稿では,損失関数を有限個に制限したオンライン学習問題に対処する一般的なオンライン降下スキームを提案する。
- 参考スコア(独自算出の注目度): 51.94795123103707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian persuasion studies how an informed sender should partially disclose
information to influence the behavior of a self-interested receiver. Classical
models make the stringent assumption that the sender knows the receiver's
utility. This can be relaxed by considering an online learning framework in
which the sender repeatedly faces a receiver of an unknown, adversarially
selected type. We study, for the first time, an online Bayesian persuasion
setting with multiple receivers. We focus on the case with no externalities and
binary actions, as customary in offline models. Our goal is to design no-regret
algorithms for the sender with polynomial per-iteration running time. First, we
prove a negative result: for any $0 < \alpha \leq 1$, there is no
polynomial-time no-$\alpha$-regret algorithm when the sender's utility function
is supermodular or anonymous. Then, we focus on the case of submodular sender's
utility functions and we show that, in this case, it is possible to design a
polynomial-time no-$(1 - \frac{1}{e})$-regret algorithm. To do so, we introduce
a general online gradient descent scheme to handle online learning problems
with a finite number of possible loss functions. This requires the existence of
an approximate projection oracle. We show that, in our setting, there exists
one such projection oracle which can be implemented in polynomial time.
- Abstract(参考訳): ベイズ的説得は、情報発信者が自己興味のある受信者の行動に影響を与える情報の一部を開示する方法を研究する。
古典的なモデルは、送信者が受信機のユーティリティを知っているという厳密な仮定を作る。
これは、送信者が未知で敵対的に選択されたタイプの受信者に対して繰り返し向き合うオンライン学習フレームワークを考えることで緩和できる。
我々は,複数の受信機を備えたオンラインベイズ型説得セットを初めて調査した。
オフラインモデルの慣習として、外部性やバイナリアクションのないケースに焦点を当てます。
我々のゴールは、多項式ごとの実行時間を持つ送信者のための非回帰アルゴリズムを設計することである。
まず、0 < \alpha \leq 1$ に対して、送信者のユーティリティ関数が超モジュラーまたは匿名である場合、多項式時間 no-\alpha$-regret アルゴリズムは存在しない。
次に、サブモジュラー送信者のユーティリティ関数の場合に焦点を当て、この場合、多項式時間 no-$(1 - \frac{1}{e})$-regret アルゴリズムを設計することができることを示す。
そこで本研究では,オンライン学習問題を扱うための一般的なオンライン勾配降下方式を提案する。
これは近似射影オラクルの存在を必要とする。
私たちの設定では、多項式時間で実装可能な投影オラクルが1つ存在することを示します。
関連論文リスト
- Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Learning How to Strategically Disclose Information [6.267574471145217]
送信者が未知のタイプの受信機と対話する情報設計のオンライン版を考える。
我々は、$mathcalO(sqrtT)$ regretが完全な情報フィードバックで達成可能であることを示す。
また,一般凸ユーティリティ関数に対して$mathcalO(sqrtT)$ regretを送信者が達成できる新しいパラメトリゼーションを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:44:16Z) - Algorithmic Persuasion Through Simulation [51.23082754429737]
本研究では,受取人に製品購入などの二元的行動を取るよう説得するベイズ説得ゲームについて検討する。
送信者は、製品の品質が高いか低いかなどの世界の(バイナリ)状態について通知されるが、受信者の信念やユーティリティに関する情報は限られている。
顧客の調査やユーザスタディ、最近のAIの進歩によって動機づけられた私たちは、受信者の振る舞いをシミュレートする託宣をクエリすることで、送信側が受信者についてより深く学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-29T23:01:33Z) - Adversarial Bandits with Multi-User Delayed Feedback: Theory and
Application [17.64363983613468]
我々は,マルチユーザ遅延フィードバックを用いた逆MAB問題を定式化し,修正されたEXP3アルゴリズム MUD-EXP3 を設計する。
本稿では,複数のユーザからの遅延フィードバック結果について考察し,内部分布に制限を加えることなく検討する。
論文 参考訳(メタデータ) (2023-10-17T12:08:15Z) - Selective Sampling and Imitation Learning via Online Regression [17.73844193143454]
雑音の多い専門家にフィードバックを求めることで,Imitation Learning (IL) の問題を考える。
我々は、選択的サンプリングを用いて、ノイズの多い専門家にフィードバックを積極的に問い合わせる、ILのための対話的アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-07-11T03:32:20Z) - Sequential Information Design: Learning to Persuade in the Dark [49.437419242582884]
本研究では,自己関心の受信者の行動に影響を及ぼそうとする情報発信者が直面する繰り返し情報設計問題について検討する。
各ラウンドにおいて、送信者は、シーケンシャル意思決定(SDM)問題におけるランダムイベントの実現を観察する。
これは、そのような情報をレシーバーに段階的に開示し、彼らが(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
論文 参考訳(メタデータ) (2022-09-08T17:08:12Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。