論文の概要: Sequential Information Design: Learning to Persuade in the Dark
- arxiv url: http://arxiv.org/abs/2209.03927v1
- Date: Thu, 8 Sep 2022 17:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:48:48.217401
- Title: Sequential Information Design: Learning to Persuade in the Dark
- Title(参考訳): 逐次的情報設計: 暗闇の中で説得する学習
- Authors: Martino Bernasconi, Matteo Castiglioni, Alberto Marchesi, Nicola
Gatti, Francesco Trovo
- Abstract要約: 本研究では,自己関心の受信者の行動に影響を及ぼそうとする情報発信者が直面する繰り返し情報設計問題について検討する。
各ラウンドにおいて、送信者は、シーケンシャル意思決定(SDM)問題におけるランダムイベントの実現を観察する。
これは、そのような情報をレシーバーに段階的に開示し、彼らが(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
- 参考スコア(独自算出の注目度): 49.437419242582884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a repeated information design problem faced by an informed sender
who tries to influence the behavior of a self-interested receiver. We consider
settings where the receiver faces a sequential decision making (SDM) problem.
At each round, the sender observes the realizations of random events in the SDM
problem. This begets the challenge of how to incrementally disclose such
information to the receiver to persuade them to follow (desirable) action
recommendations. We study the case in which the sender does not know random
events probabilities, and, thus, they have to gradually learn them while
persuading the receiver. We start by providing a non-trivial polytopal
approximation of the set of sender's persuasive information structures. This is
crucial to design efficient learning algorithms. Next, we prove a negative
result: no learning algorithm can be persuasive. Thus, we relax persuasiveness
requirements by focusing on algorithms that guarantee that the receiver's
regret in following recommendations grows sub-linearly. In the full-feedback
setting -- where the sender observes all random events realizations -- , we
provide an algorithm with $\tilde{O}(\sqrt{T})$ regret for both the sender and
the receiver. Instead, in the bandit-feedback setting -- where the sender only
observes the realizations of random events actually occurring in the SDM
problem -- , we design an algorithm that, given an $\alpha \in [1/2, 1]$ as
input, ensures $\tilde{O}({T^\alpha})$ and $\tilde{O}( T^{\max \{ \alpha,
1-\frac{\alpha}{2} \} })$ regrets, for the sender and the receiver
respectively. This result is complemented by a lower bound showing that such a
regrets trade-off is essentially tight.
- Abstract(参考訳): 自己関心のある受信者の行動に影響を与えようとするインフォームド送信者が直面する情報設計問題の繰り返しについて検討する。
我々は,受信者が逐次意思決定(sdm)問題に直面するような設定を検討する。
各ラウンドにおいて、送信者はsdm問題におけるランダムなイベントの実現を観察する。
これは、そのような情報をレシーバーに段階的に開示して、(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
送信者がランダムな事象の確率を知らない場合について検討し、受信機を説得しながら徐々に学習する必要がある。
まず、送信者の説得的情報構造を非自明なポリトープ近似で近似することから始める。
これは効率的な学習アルゴリズムの設計に不可欠である。
次に、我々は否定的な結果を証明する: 学習アルゴリズムは説得できない。
そこで,提案手法は,レシーバーのリコメンデーションに対する後悔が次々に増加することを保証するアルゴリズムに着目し,説得性の要求を緩和する。
送信側がすべてのランダムなイベントを観測するフルフィードバック設定 -- では、送信側と受信側の両方に対して $\tilde{O}(\sqrt{T})$ regret のアルゴリズムを提供する。
その代わりに、送信側がSDM問題で実際に発生したランダム事象の実効化のみを観測するBandit-feedback設定 -- において、入力として$\alpha \in [1/2, 1]$を与えられるアルゴリズムを設計し、送信側と受信側それぞれに対して$\tilde{O}({T^\alpha})$および$\tilde{O}(T^{\max \{ \alpha, 1-\frac {\alpha}{2} \} })$ regretsを保証します。
この結果は、このような後悔のトレードオフが本質的にタイトであることを示す下界によって補完される。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Learning How to Strategically Disclose Information [6.267574471145217]
送信者が未知のタイプの受信機と対話する情報設計のオンライン版を考える。
我々は、$mathcalO(sqrtT)$ regretが完全な情報フィードバックで達成可能であることを示す。
また,一般凸ユーティリティ関数に対して$mathcalO(sqrtT)$ regretを送信者が達成できる新しいパラメトリゼーションを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:44:16Z) - Markov Persuasion Processes: Learning to Persuade from Scratch [37.92189925462977]
ベイズによる説得では、情報発信者は、望ましい行動をとるよう説得するために、情報を受信者に戦略的に開示する。
我々は、部分的なフィードバックで作業する送信者のための学習アルゴリズムを設計する。
最適情報開示ポリシーに対する後悔はエピソード数で微妙に増加することを証明している。
論文 参考訳(メタデータ) (2024-02-05T15:09:41Z) - Algorithmic Persuasion Through Simulation [51.23082754429737]
本研究では,受取人に製品購入などの二元的行動を取るよう説得するベイズ説得ゲームについて検討する。
送信者は、製品の品質が高いか低いかなどの世界の(バイナリ)状態について通知されるが、受信者の信念やユーティリティに関する情報は限られている。
顧客の調査やユーザスタディ、最近のAIの進歩によって動機づけられた私たちは、受信者の振る舞いをシミュレートする託宣をクエリすることで、送信側が受信者についてより深く学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-29T23:01:33Z) - Multi-Receiver Online Bayesian Persuasion [51.94795123103707]
本研究では,未知の逆選択型の受信者に対して,送信者が繰り返し対面するオンライン学習フレームワークについて検討する。
オフラインモデルの慣習として、外部性やバイナリアクションのないケースに重点を置いています。
本稿では,損失関数を有限個に制限したオンライン学習問題に対処する一般的なオンライン降下スキームを提案する。
論文 参考訳(メタデータ) (2021-06-11T16:05:31Z) - Learning to Persuade on the Fly: Robustness Against Ignorance [26.915262694667746]
送信側と受信側のストリーム間の繰り返しの説得について検討し、その度に送信側は未知の分布から独立に引き出されたペイオフ関連状態を観測する。
送信者は、状態情報を選択的に共有することにより、受信者を説得して送信者の好みに沿った行動を取る。
標準モデルとは対照的に、送信側も受信側もその分布を知らないため、送信側はオンザフライで分布を学習しながら説得しなければならない。
論文 参考訳(メタデータ) (2021-02-19T21:02:15Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。