論文の概要: Learning Kernel-Based MDPs from Episodic Preferential Feedback
- arxiv url: http://arxiv.org/abs/2605.23650v1
- Date: Fri, 22 May 2026 14:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.378401
- Title: Learning Kernel-Based MDPs from Episodic Preferential Feedback
- Title(参考訳): エピソード優先フィードバックを用いたカーネルベースMDPの学習
- Authors: Nikola Pavlovic, Sattar Vakili, Qing Zhao,
- Abstract要約: エピソード型カーネルMDPにおける嗜好のみの学習に関する理論的研究について述べる。
提案手法は,主観的比較に適合する優先度に基づく値推定と信頼度セットを開発する。
我々は,学習方針の値が最適方針の値に収束することを示唆し,エピソード数で下位にスケールする高い確率的後悔境界を証明した。
- 参考スコア(独自算出の注目度): 14.488515539527995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human feedback often arrives as preferences rather than calibrated numeric rewards, motivating reinforcement learning from preferential feedback, also referred to as reinforcement learning from human feedback (RLHF). We present a rigorous theoretical study of preference-only learning in episodic kernel MDPs. In each episode, the learner deploys two policies from a common start state and receives a single binary label indicating which trajectory is preferred, modeled by a Bradley--Terry--Luce link on the difference of cumulative (unobserved) rewards. Under kernel-based assumptions on the reward and transition functions (one of the most general models amenable to theoretical analysis) we develop preference-based value estimation and confidence sets tailored to end-of-episode comparisons.We prove high-probability regret bounds that scale sublinearly in the number of episodes, implying that the value of the learned policy converges to that of the optimal policy.
- Abstract(参考訳): 人間のフィードバックは、分類された数字の報酬よりも好みとして到達し、優先的なフィードバックから強化学習を動機付け、人間からのフィードバックから強化学習(RLHF)とも呼ばれる。
エピソード型カーネルMDPにおける嗜好のみの学習に関する厳密な理論的研究を提案する。
各エピソードにおいて、学習者は共通の開始状態から2つのポリシーをデプロイし、累積(観測されていない)報酬の差についてブラッドリー-テリー-ルーチリンクでモデル化された軌道が好まれることを示す単一のバイナリラベルを受信する。
カーネルをベースとした報酬と遷移関数(理論解析に適合する最も一般的なモデルの一つ)の仮定の下で、評価に基づく値推定と信頼セットを開発し、エピソード数でサブ線形にスケールする高い確率的後悔境界を証明し、学習されたポリシーの値が最適ポリシーの値と収束することを示唆する。
関連論文リスト
- EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training [69.32453275232662]
学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
論文 参考訳(メタデータ) (2026-04-21T14:07:39Z) - Rectifying Shortcut Behaviors in Preference-based Reward Learning [46.09046818725698]
強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-21T20:08:32Z) - Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。
人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。
本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文 参考訳(メタデータ) (2024-02-22T18:20:33Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。