論文の概要: Off-Policy Evaluation for Sequential Persuasion Process with Unobserved Confounding
- arxiv url: http://arxiv.org/abs/2504.01211v1
- Date: Tue, 01 Apr 2025 21:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:52.001366
- Title: Off-Policy Evaluation for Sequential Persuasion Process with Unobserved Confounding
- Title(参考訳): 観測不能な畳み込みを伴う逐次的説得過程のオフポリシィ評価
- Authors: Nishanth Venkatesh S., Heeseung Bang, Andreas A. Malikopoulos,
- Abstract要約: 現実のシナリオは、しばしば受信者の信念の形成と意思決定に影響を与える隠された変数を含む。
我々はこれをシーケンシャルな意思決定問題として概念化し、送信側と受信側が複数のラウンドで対話する。
このシナリオを部分観測可能なマルコフ決定プロセス (POMDP) として再構成することにより、受信者の信念と観測不能な共同創設者の両方のダイナミクスに関する不完全な情報をキャプチャする。
- 参考スコア(独自算出の注目度): 2.7282382992043885
- License:
- Abstract: In this paper, we expand the Bayesian persuasion framework to account for unobserved confounding variables in sender-receiver interactions. While traditional models assume that belief updates follow Bayesian principles, real-world scenarios often involve hidden variables that impact the receiver's belief formation and decision-making. We conceptualize this as a sequential decision-making problem, where the sender and receiver interact over multiple rounds. In each round, the sender communicates with the receiver, who also interacts with the environment. Crucially, the receiver's belief update is affected by an unobserved confounding variable. By reformulating this scenario as a Partially Observable Markov Decision Process (POMDP), we capture the sender's incomplete information regarding both the dynamics of the receiver's beliefs and the unobserved confounder. We prove that finding an optimal observation-based policy in this POMDP is equivalent to solving for an optimal signaling strategy in the original persuasion framework. Furthermore, we demonstrate how this reformulation facilitates the application of proximal learning for off-policy evaluation in the persuasion process. This advancement enables the sender to evaluate alternative signaling strategies using only observational data from a behavioral policy, thus eliminating the necessity for costly new experiments.
- Abstract(参考訳): 本稿では,送信者-受信者相互作用における観測不能な共役変数を考慮し,ベイズ的説得フレームワークを拡張した。
伝統的なモデルは、信念の更新はベイズ主義の原則に従うと仮定するが、現実のシナリオは、しばしばレシーバーの信念の形成と意思決定に影響を与える隠された変数を含む。
我々はこれをシーケンシャルな意思決定問題として概念化し、送信側と受信側が複数のラウンドで対話する。
各ラウンドでは、送信側が受信側と通信し、受信側も環境と対話する。
重要なことに、受信機の信条更新は、観測されていない共起変数に影響される。
このシナリオを部分観測可能なマルコフ決定プロセス (POMDP) として再構成することにより、受信者の信念と観測不能な共同創設者の両方のダイナミクスに関する不完全な情報をキャプチャする。
このPOMDPにおける最適観測に基づくポリシの発見は,元来の問合せフレームワークにおける最適なシグナリング戦略の解決と等価であることを示す。
さらに, この改革が, 説得過程における非政治的評価への近位学習の活用をいかに促進するかを実証する。
この進歩により、送信側は行動方針からの観測データのみを用いて代替信号戦略を評価することができ、コストがかかる新しい実験の必要性を排除できる。
関連論文リスト
- Causal Influence in Federated Edge Inference [34.487472866247586]
本稿では、未ラベルのストリーミングデータを用いて、接続性のある異種エージェントが推論を行う環境について考察する。
不確実性を克服するために、エージェントは、融合センターを通じてローカルな推論を交換することで互いに協力する。
エージェントの関与パターンや核融合センターの方針を反映した様々なシナリオを考察した。
論文 参考訳(メタデータ) (2024-05-02T13:06:50Z) - Randomized Confidence Bounds for Stochastic Partial Monitoring [8.649322557020666]
部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。
文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。
決定論的信頼境界のランダム化に基づく新しいPM戦略のクラスを導入する。
論文 参考訳(メタデータ) (2024-02-07T16:18:59Z) - Markov Persuasion Processes: Learning to Persuade from Scratch [37.92189925462977]
ベイズによる説得では、情報発信者は、望ましい行動をとるよう説得するために、情報を受信者に戦略的に開示する。
我々は、部分的なフィードバックで作業する送信者のための学習アルゴリズムを設計する。
最適情報開示ポリシーに対する後悔はエピソード数で微妙に増加することを証明している。
論文 参考訳(メタデータ) (2024-02-05T15:09:41Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Debiasing Recommendation by Learning Identifiable Latent Confounders [49.16119112336605]
コンバウンディングバイアスは、ユーザの露出とフィードバックの両方に影響を与える未測定変数の存在によって生じる。
既存の手法では,(1) 未測定変数について不確定な仮定を行うか,(2) 潜伏した共同創設者を直接ユーザの露出から推測する。
本稿では、上記の非識別問題の解決にプロキシ変数の集合を利用する新しい方法、すなわち、識別可能なデコノウ(iDCF)を提案する。
論文 参考訳(メタデータ) (2023-02-10T05:10:26Z) - Policy Evaluation in Decentralized POMDPs with Belief Sharing [39.550233049869036]
エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
論文 参考訳(メタデータ) (2023-02-08T15:54:15Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Active recursive Bayesian inference using R\'enyi information measures [11.1748531496641]
本稿では,統合された推論とクエリ選択ステップを備えたベイズ推論フレームワークを提案する。
提案手法が相互情報などの従来の手法より優れていることを示す。
本稿では,レストランレコメンデーションとブレイン・コンピュータ・インタフェース(BCI)タイピングシステムの2つの応用に関する実証的および実験的性能評価を行う。
論文 参考訳(メタデータ) (2020-04-07T05:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。