論文の概要: Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback
- arxiv url: http://arxiv.org/abs/2602.08307v1
- Date: Mon, 09 Feb 2026 06:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.08741
- Title: Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback
- Title(参考訳): 個人化されたフィードバックを用いた文脈マルコフ決定過程の対話型学習
- Authors: Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro,
- Abstract要約: 本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
- 参考スコア(独自算出の注目度): 59.287761696290865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study Interaction-Grounded Learning (IGL) [Xie et al., 2021], a paradigm designed for realistic scenarios where the learner receives indirect feedback generated by an unknown mechanism, rather than explicit numerical rewards. While prior work on IGL provides efficient algorithms with provable guarantees, those results are confined to single-step settings, restricting their applicability to modern sequential decision-making systems such as multi-turn Large Language Model (LLM) deployments. To bridge this gap, we propose a computationally efficient algorithm that achieves a sublinear regret guarantee for contextual episodic Markov Decision Processes (MDPs) with personalized feedback. Technically, we extend the reward-estimator construction of Zhang et al. [2024a] from the single-step to the multi-step setting, addressing the unique challenges of decoding latent rewards under MDPs. Building on this estimator, we design an Inverse-Gap-Weighting (IGW) algorithm for policy optimization. Finally, we demonstrate the effectiveness of our method in learning personalized objectives from multi-turn interactions through experiments on both a synthetic episodic MDP and a real-world user booking dataset.
- Abstract(参考訳): 本稿では,対話型学習(Interaction-Grounded Learning, IGL) [Xie et al , 2021] について検討する。
IGLの以前の作業では、証明可能な保証を備えた効率的なアルゴリズムが提供されていたが、これらの結果はシングルステップの設定に限定され、マルチターン大規模言語モデル(LLM)デプロイメントのような現代的なシーケンシャルな意思決定システムに適用性を制限する。
このギャップを埋めるために,個人化されたフィードバックを用いて,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現するアルゴリズムを提案する。
技術的には、Zhang et al[2024a]の報酬推定器の構成をシングルステップからマルチステップ設定に拡張し、MDPの下で遅延報酬を復号するというユニークな課題に対処する。
この推定器を用いて,政策最適化のための逆ギャップ重み付け(IGW)アルゴリズムを設計する。
最後に,本手法がマルチターンインタラクションからパーソナライズされた目的の学習に有効であることを示す。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。
本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文 参考訳(メタデータ) (2025-08-01T15:23:15Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Provably Efficient Interactive-Grounded Learning with Personalized Reward [44.64476717773815]
インタラクティブ・グラウンドド・ラーニング(Interactive-Grounded Learning, IGL)は、学習者が観測不能な報酬を最大化することを目的とした強力なフレームワークである。
我々は、実現可能性の下でサブ線形後悔を伴う最初の証明可能な効率のよいアルゴリズムを提供する。
本稿では,探索-テーマ-露光に基づく2つのアルゴリズムと,逆ギャップ重み付けに基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:21:09Z) - On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach [7.996010840316654]
本稿では,Large Language Models (LLMs) を用いた不確実性低減フレームワークを提案する。
LLMは、先進的な言語能力と、広範なデータサイエンスの専門知識を持たない人々に対して大きな利点をもたらす「従量制」モデルに便乗している。
我々は,本手法が効率的かつ効果的であることを示し,実世界のタスクに有望な応用を提供する。
論文 参考訳(メタデータ) (2024-01-07T09:06:58Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。