論文の概要: Markov Persuasion Processes: Learning to Persuade from Scratch
- arxiv url: http://arxiv.org/abs/2402.03077v2
- Date: Wed, 6 Mar 2024 12:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:22:26.630641
- Title: Markov Persuasion Processes: Learning to Persuade from Scratch
- Title(参考訳): マルコフの説得プロセス:スクラッチから説得することを学ぶ
- Authors: Francesco Bacchiocchi, Francesco Emanuele Stradi, Matteo Castiglioni,
Alberto Marchesi, Nicola Gatti
- Abstract要約: ベイズによる説得では、情報発信者は、望ましい行動をとるよう説得するために、情報を受信者に戦略的に開示する。
我々は、部分的なフィードバックで作業する送信者のための学習アルゴリズムを設計する。
最適情報開示ポリシーに対する後悔はエピソード数で微妙に増加することを証明している。
- 参考スコア(独自算出の注目度): 37.92189925462977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Bayesian persuasion, an informed sender strategically discloses
information to a receiver so as to persuade them to undertake desirable
actions. Recently, a growing attention has been devoted to settings in which
sender and receivers interact sequentially. Recently, Markov persuasion
processes (MPPs) have been introduced to capture sequential scenarios where a
sender faces a stream of myopic receivers in a Markovian environment. The MPPs
studied so far in the literature suffer from issues that prevent them from
being fully operational in practice, e.g., they assume that the sender knows
receivers' rewards. We fix such issues by addressing MPPs where the sender has
no knowledge about the environment. We design a learning algorithm for the
sender, working with partial feedback. We prove that its regret with respect to
an optimal information-disclosure policy grows sublinearly in the number of
episodes, as it is the case for the loss in persuasiveness cumulated while
learning. Moreover, we provide a lower bound for our setting matching the
guarantees of our algorithm.
- Abstract(参考訳): ベイジアン説得において、インフォームド送信者は、望ましい行動をとるよう説得するために、戦略的に受信者に情報を開示する。
近年,送信者と受信者がシーケンシャルにやり取りする設定に注目が集まっている。
近年,マルコフ知覚過程 (MPP) が導入され, マルコフ環境下では, 送信者がミオピックレシーバーのストリームに直面する連続的なシナリオを捉えている。
これまでの文献で研究されたMPPは、実際に完全に運用されるのを防ぐ問題に悩まされており、例えば、送信者が受信者の報酬を知っていると仮定している。
我々は、送信者が環境に関する知識を持たないmppに対処することで、このような問題を解決する。
我々は,送信者に対する学習アルゴリズムを,部分的フィードバックを用いて設計する。
我々は,学習中に蓄積される説得力の喪失の事例として,最適な情報開示方針に対する後悔がエピソード数でサブリニア的に増加することを証明した。
さらに,アルゴリズムの保証に適合する設定に対して,より低いバウンダリを提供する。
関連論文リスト
- On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。
そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Randomized Confidence Bounds for Stochastic Partial Monitoring [8.649322557020666]
部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。
文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。
決定論的信頼境界のランダム化に基づく新しいPM戦略のクラスを導入する。
論文 参考訳(メタデータ) (2024-02-07T16:18:59Z) - Algorithmic Persuasion Through Simulation [51.23082754429737]
本研究では,受取人に製品購入などの二元的行動を取るよう説得するベイズ説得ゲームについて検討する。
送信者は、製品の品質が高いか低いかなどの世界の(バイナリ)状態について通知されるが、受信者の信念やユーティリティに関する情報は限られている。
顧客の調査やユーザスタディ、最近のAIの進歩によって動機づけられた私たちは、受信者の振る舞いをシミュレートする託宣をクエリすることで、送信側が受信者についてより深く学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-29T23:01:33Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Sequential Information Design: Learning to Persuade in the Dark [49.437419242582884]
本研究では,自己関心の受信者の行動に影響を及ぼそうとする情報発信者が直面する繰り返し情報設計問題について検討する。
各ラウンドにおいて、送信者は、シーケンシャル意思決定(SDM)問題におけるランダムイベントの実現を観察する。
これは、そのような情報をレシーバーに段階的に開示し、彼らが(望まれる)アクションレコメンデーションに従うように説得する方法の課題である。
論文 参考訳(メタデータ) (2022-09-08T17:08:12Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Learning to Persuade on the Fly: Robustness Against Ignorance [26.915262694667746]
送信側と受信側のストリーム間の繰り返しの説得について検討し、その度に送信側は未知の分布から独立に引き出されたペイオフ関連状態を観測する。
送信者は、状態情報を選択的に共有することにより、受信者を説得して送信者の好みに沿った行動を取る。
標準モデルとは対照的に、送信側も受信側もその分布を知らないため、送信側はオンザフライで分布を学習しながら説得しなければならない。
論文 参考訳(メタデータ) (2021-02-19T21:02:15Z) - Correcting Experience Replay for Multi-Agent Communication [18.12281605882891]
マルチエージェント強化学習(MARL)を用いたコミュニケーション学習の課題について考察する。
一般的なアプローチは、リプレイバッファからサンプリングされたデータを使って、政治外を学ぶことである。
MARLにより誘導される観測通信の非定常性を考慮した「通信補正」を導入する。
論文 参考訳(メタデータ) (2020-10-02T20:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。