論文の概要: Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.10678v1
- Date: Tue, 22 Feb 2022 05:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 15:46:52.634437
- Title: Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning
- Title(参考訳): 逐次情報設計:マルコフの説得プロセスとその効率的な強化学習
- Authors: Jibang Wu, Zixuan Zhang, Zhe Feng, Zhaoran Wang, Zhuoran Yang, Michael
I. Jordan, Haifeng Xu
- Abstract要約: 本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
- 参考スコア(独自算出の注目度): 156.5667417159582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's economy, it becomes important for Internet platforms to consider
the sequential information design problem to align its long term interest with
incentives of the gig service providers. This paper proposes a novel model of
sequential information design, namely the Markov persuasion processes (MPPs),
where a sender, with informational advantage, seeks to persuade a stream of
myopic receivers to take actions that maximizes the sender's cumulative
utilities in a finite horizon Markovian environment with varying prior and
utility functions. Planning in MPPs thus faces the unique challenge in finding
a signaling policy that is simultaneously persuasive to the myopic receivers
and inducing the optimal long-term cumulative utilities of the sender.
Nevertheless, in the population level where the model is known, it turns out
that we can efficiently determine the optimal (resp. $\epsilon$-optimal) policy
with finite (resp. infinite) states and outcomes, through a modified
formulation of the Bellman equation.
Our main technical contribution is to study the MPP under the online
reinforcement learning (RL) setting, where the goal is to learn the optimal
signaling policy by interacting with with the underlying MPP, without the
knowledge of the sender's utility functions, prior distributions, and the
Markov transition kernels. We design a provably efficient no-regret learning
algorithm, the Optimism-Pessimism Principle for Persuasion Process (OP4), which
features a novel combination of both optimism and pessimism principles. Our
algorithm enjoys sample efficiency by achieving a sublinear $\sqrt{T}$-regret
upper bound. Furthermore, both our algorithm and theory can be applied to MPPs
with large space of outcomes and states via function approximation, and we
showcase such a success under the linear setting.
- Abstract(参考訳): 今日の経済において、インターネットプラットフォームは、長期的な関心をギグサービス提供者のインセンティブに合わせるために、シーケンシャルな情報設計の問題を考えることが重要である。
本稿では,送信者が情報的優位性をもって,送信者の累積的効用を最大化する行動を,先行関数や実用関数の異なる有限地平線マルコフ環境において実行しようとする,逐次的情報設計の新しいモデルであるマルコフ説得プロセス(mpps)を提案する。
したがって、MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
しかしながら、モデルが知られている人口レベルでは、最適(resp)を効率的に決定できることが判明した。
$\epsilon$-optimal) 有限の状態と結果を持つポリシーはベルマン方程式の修正された定式化によって得られる。
我々の主な技術的貢献は、オンライン強化学習(RL)環境下でMPPを研究することであり、その目的は、送信者のユーティリティ機能、事前分布、マルコフ遷移カーネルの知識を必要とせず、基礎となるMPPと対話することで最適なシグナル伝達ポリシーを学ぶことである。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
我々のアルゴリズムは、サブ線形$\sqrt{T}$-regret上界を達成してサンプル効率を享受する。
さらに,提案手法と理論は,結果と状態の空間が広いmppsに対して関数近似により適用可能であり,線形設定下での成功を示す。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Evaluation of Prosumer Networks for Peak Load Management in Iran: A Distributed Contextual Stochastic Optimization Approach [0.0]
本稿では,イランにおけるピーク負荷軽減を目的とした新しいプロシューマーネットワークフレームワークを提案する。
コスト指向の統合予測と最適化手法を提案する。
数値的な結果から,最適化とコンテキスト情報共有ネットワークの実装による予測の統合は,ピーク負荷と総コストを著しく削減することがわかった。
論文 参考訳(メタデータ) (2024-08-31T16:09:38Z) - DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。
このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。
実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文 参考訳(メタデータ) (2024-04-29T17:58:30Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。