論文の概要: Learning to Persuade on the Fly: Robustness Against Ignorance
- arxiv url: http://arxiv.org/abs/2102.10156v1
- Date: Fri, 19 Feb 2021 21:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:37:21.261546
- Title: Learning to Persuade on the Fly: Robustness Against Ignorance
- Title(参考訳): 飛ぶことを学ぶ:無知に対するロバスト性
- Authors: You Zu, Krishnamurthy Iyer and Haifeng Xu
- Abstract要約: 送信者と受信機との間の繰り返しの説得設定を調査し、その都度$t$で、送信者は未知の事前分布から独立かつ同一に引き出されたペイオフ関連状態を観察する。
標準設定と同様に、送信者は、状態に関する情報を選択的に共有することにより、受信者を説得して送信者の好みに沿った行動を選択する。
標準モデルとは対照的に、送信者は先を知らないし、徐々に先をフライで学習しながら説得する必要があります。
- 参考スコア(独自算出の注目度): 10.817873935576412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a repeated persuasion setting between a sender and a receiver, where
at each time $t$, the sender observes a payoff-relevant state drawn
independently and identically from an unknown prior distribution, and shares
state information with the receiver, who then myopically chooses an action. As
in the standard setting, the sender seeks to persuade the receiver into
choosing actions that are aligned with the sender's preference by selectively
sharing information about the state. However, in contrast to the standard
models, the sender does not know the prior, and has to persuade while gradually
learning the prior on the fly.
We study the sender's learning problem of making persuasive action
recommendations to achieve low regret against the optimal persuasion mechanism
with the knowledge of the prior distribution. Our main positive result is an
algorithm that, with high probability, is persuasive across all rounds and
achieves $O(\sqrt{T\log T})$ regret, where $T$ is the horizon length. The core
philosophy behind the design of our algorithm is to leverage robustness against
the sender's ignorance of the prior. Intuitively, at each time our algorithm
maintains a set of candidate priors, and chooses a persuasion scheme that is
simultaneously persuasive for all of them. To demonstrate the effectiveness of
our algorithm, we further prove that no algorithm can achieve regret better
than $\Omega(\sqrt{T})$, even if the persuasiveness requirements were
significantly relaxed. Therefore, our algorithm achieves optimal regret for the
sender's learning problem up to terms logarithmic in $T$.
- Abstract(参考訳): 送信側と受信側との繰り返しの説得条件について検討し、その度に$t$で、送信側は未知の事前分布から独立に引き出されたペイオフ関連状態を観測し、受信側と状態情報を共有し、マイオプティックに動作を選択する。
標準設定と同様に、送信者は受信者に状態に関する情報を選択的に共有することで、送信者の好みに沿った行動を選択するよう説得しようとします。
しかし、標準的なモデルとは対照的に、送信者は先を知らないし、徐々に先をフライで学習しながら説得する必要があります。
事前の分布の知識と最適な説得メカニズムに対して低い後悔を達成するために説得力のある行動勧告を作成するという送信者の学習問題を研究します。
我々の主な肯定的な結果は、高い確率で全ラウンドにわたって説得可能であり、$O(\sqrt{T\log T})$ regret, ここでは$T$は地平線長である。
アルゴリズムの設計の背後にある中核的な哲学は、送信者の事前の無知に対する堅牢性を活用することである。
直感的には、我々のアルゴリズムは候補の事前の集合を維持し、それらすべてに対して同時に説得力のある説得スキームを選択する。
提案アルゴリズムの有効性を示すために,提案アルゴリズムは,説得性要件が著しく緩和された場合でも,$\Omega(\sqrt{T})$以上の後悔を達成できないことを証明した。
そこで,本アルゴリズムは,送信者の学習問題を最大で$T$の対数問題に最適の後悔を与える。
関連論文リスト
- Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Markov Persuasion Processes: Learning to Persuade from Scratch [37.92189925462977]
ベイズによる説得では、情報発信者は、望ましい行動をとるよう説得するために、情報を受信者に戦略的に開示する。
我々は、部分的なフィードバックで作業する送信者のための学習アルゴリズムを設計する。
最適情報開示ポリシーに対する後悔はエピソード数で微妙に増加することを証明している。
論文 参考訳(メタデータ) (2024-02-05T15:09:41Z) - Algorithmic Persuasion Through Simulation [54.96278605678665]
本研究では,受信側が受信側を説得し,二元的行動を起こそうとするベイズ的説得問題について考察する。
顧客調査やユーザスタディ、最近のジェネレーティブAIの進歩に動機付けられ、送信側は受信者についてより深く学ぶことができる。
論文 参考訳(メタデータ) (2023-11-29T23:01:33Z) - Persuading a Behavioral Agent: Approximately Best Responding and
Learning [7.378697321839991]
本研究では,受信機が送信者の信号処理方式にほぼ最もよく対応できるベイズ説得モデルの緩和について検討する。
自然な仮定の下では,送信側は,予測ユーティリティが最適ユーティリティとほぼ同等に優れたことを保証した信号処理方式を見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-07T19:12:46Z) - Sequential Information Design: Learning to Persuade in the Dark [49.437419242582884]
本研究では,自己関心の受信者の行動に影響を及ぼそうとする情報発信者が直面する繰り返し情報設計問題について検討する。
各ラウンドにおいて、送信者は、シーケンシャル意思決定(SDM)問題におけるランダムイベントの実現を観察する。
これは、そのような情報をレシーバーに段階的に開示し、彼らが(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
論文 参考訳(メタデータ) (2022-09-08T17:08:12Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Multi-Receiver Online Bayesian Persuasion [51.94795123103707]
本研究では,未知の逆選択型の受信者に対して,送信者が繰り返し対面するオンライン学習フレームワークについて検討する。
オフラインモデルの慣習として、外部性やバイナリアクションのないケースに重点を置いています。
本稿では,損失関数を有限個に制限したオンライン学習問題に対処する一般的なオンライン降下スキームを提案する。
論文 参考訳(メタデータ) (2021-06-11T16:05:31Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。