論文の概要: Offline and Online KL-Regularized RLHF under Differential Privacy
- arxiv url: http://arxiv.org/abs/2510.13512v1
- Date: Wed, 15 Oct 2025 13:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.674364
- Title: Offline and Online KL-Regularized RLHF under Differential Privacy
- Title(参考訳): ディファレンシャルプライバシ下でのオフラインおよびオンラインKL規則化RLHF
- Authors: Yulian Wu, Rushil Thareja, Praneeth Vepakomma, Francesco Orabona,
- Abstract要約: 人的フィードバックから強化学習のオフラインおよびオンライン設定について検討する。
オフライン環境では、悲観主義の原理に基づくアルゴリズムを設計する。
オンライン環境では、我々はDPを用いたKL正規化RLHFの問題を理論的に研究した最初の人物である。
- 参考スコア(独自算出の注目度): 15.993352181567872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the offline and online settings of reinforcement learning from human feedback (RLHF) with KL-regularization -- a widely used objective function in large language model alignment -- under the $\epsilon$ local differential privacy ($\epsilon$-LDP) model on the label of the human preference. In the offline setting, we design an algorithm based on the principle of pessimism and derive a new suboptimality gap of $\tilde{O}(1/[(e^\epsilon-1)^2 n])$ on the KL-regularized objective under single-policy concentrability. We also prove its optimality by providing a matching lower bound where $n$ is the sample size. In the online setting, we are the first one to theoretically investigate the problem of KL-regularized RLHF with LDP. We design an optimism-based algorithm and derive a logarithmic regret bound of $O(d_{\mathcal{F}}\log (N_{\mathcal{F}}\cdot T) /(e^\epsilon-1)^2 )$, where $T$ is the total time step, $N_{\mathcal{F}}$ is cardinality of the reward function space $\mathcal{F}$ and $d_{\mathcal{F}}$ is a variant of eluder dimension for RLHF. As a by-product of our analysis, our results also imply the first analysis for online KL-regularized RLHF without privacy. We implement our algorithm in the offline setting to verify our theoretical results and release our open source code at: https://github.com/rushil-thareja/PPKL-RLHF-Official.
- Abstract(参考訳): 本稿では,人的フィードバック(RLHF)からの強化学習のオフラインおよびオンライン設定を,人的嗜好のラベルに基づく局所的差分プライバシー(\epsilon$-LDP)モデルの下で,大規模言語モデルのアライメントにおいて広く使用されている目的関数であるKL-regularizationを用いて検討する。
オフライン設定では、ペシミズムの原理に基づくアルゴリズムを設計し、単一政治中心性の下でのKL正規化対象に対して$\tilde{O}(1/[(e^\epsilon-1)^2n])の新たな最適差を導出する。
また、$n$がサンプルサイズであるような下界を一致させることで、その最適性を証明する。
オンライン環境では、我々は、LDPを用いたKL正規化RLHFの問題を理論的に研究する最初の人である。
楽観主義に基づくアルゴリズムを設計し、対数的後悔境界を$O(d_{\mathcal{F}}\log (N_{\mathcal{F}}\cdot T) /(e^\epsilon-1)^2 )$, where $T$ is the total time step, $N_{\mathcal{F}}$ issiteity of the reward function space $\mathcal{F}$ and $dmathcal{F}}$ is anvariant of eluder dimension for RLHF。
また,本分析の副産物として,オンラインKL規則化RLHFのプライバシのない最初の分析結果が示唆された。
我々は,我々のアルゴリズムをオフラインで実装し,理論的結果を確認し,オープンソースコードをhttps://github.com/rushil-thareja/PPKL-RLHF-Officialでリリースする。
関連論文リスト
- Augmenting Online RL with Offline Data is All You Need: A Unified Hybrid RL Algorithm Design and Analysis [18.323002218335215]
本稿では、エージェントがオフラインデータセットとオンラインインタラクションの両方を利用して最適なポリシーを学習できる強化学習(RL)のためのハイブリッド学習フレームワークについて検討する。
統合されたアルゴリズムと分析を行い、オフラインデータセットによる信頼性に基づくオンラインRLアルゴリズムの強化は、純粋なオンラインまたはオフラインのアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-19T22:58:54Z) - Actor-Critics Can Achieve Optimal Sample Efficiency [15.033410073144939]
我々は,$O(dH5 log|mathcalA|/epsilon2 + dH4 log|mathcalF|/epsilon2)$ trajectories のサンプル複雑度を得る新しいアクター批判アルゴリズムを提案する。
我々はこれをHybrid RLの設定にまで拡張し、批評家をオフラインデータで初期化すると、純粋なオフラインやオンラインRLに比べてサンプル効率が向上することを示した。
論文 参考訳(メタデータ) (2025-05-06T17:32:39Z) - $Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training [60.01594991938747]
$Qsharp$ は KL 正規化 RL の値に基づくアルゴリズムで、最適な正規化 $Q$ 関数を使用して参照ポリシーを導出する。
この結果から,LLMのポストトレーニングに有効なアプローチとして$Qsharp$が注目され,性能と理論的保証が向上した。
論文 参考訳(メタデータ) (2025-02-27T21:43:00Z) - Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Locally Differentially Private Reinforcement Learning for Linear Mixture
Markov Decision Processes [78.27542864367821]
強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用することができる。
ユーザのプライバシを保護するために、プライバシ保護RLアルゴリズムが要求されている。
線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学習するための新しい$(varepsilon, delta)$-LDPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T17:44:09Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。