論文の概要: DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment
- arxiv url: http://arxiv.org/abs/2509.19104v1
- Date: Tue, 23 Sep 2025 14:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.910306
- Title: DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment
- Title(参考訳): DRO-REBEL:高速かつ効率的なLDMアライメントのための分布ロバスト相対回帰
- Authors: Sharan Sahu, Martin T. Wells,
- Abstract要約: 人的フィードバックによる強化学習(RLHF)は,大規模言語モデル(LLM)と人間の意図の整合に欠かせないものとなっている。
DRO-REBELは、タイプ=$p$Wasserstein, KL, $chi2$ ambiguity集合を持つ堅牢なREBEL更新の集合である。
Fenchelの双対性を利用することで、各更新は単純な相対回帰レグレッションに還元され、スケーラビリティが保たれ、PPOスタイルのクリッピングや補助値ネットワークが回避される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with human feedback (RLHF) has become crucial for aligning Large Language Models (LLMs) with human intent. However, existing offline RLHF approaches suffer from overoptimization, where models overfit to reward misspecification and drift from preferred behaviors observed during training. We introduce DRO-REBEL, a unified family of robust REBEL updates with type-$p$ Wasserstein, KL, and $\chi^2$ ambiguity sets. Using Fenchel duality, each update reduces to a simple relative-reward regression, preserving scalability and avoiding PPO-style clipping or auxiliary value networks. Under standard linear-reward and log-linear policy classes with a data-coverage condition, we establish $O(n^{-1/4})$ estimation bounds with tighter constants than prior DRO-DPO approaches, and recover the minimax-optimal $O(n^{-1/2})$ rate via a localized Rademacher complexity analysis. The same analysis closes the gap for Wasserstein-DPO and KL-DPO, showing both also attain optimal parametric rates. We derive practical SGD algorithms for all three divergences: gradient regularization (Wasserstein), importance weighting (KL), and a fast 1-D dual solve ($\chi^2$). Experiments on Emotion Alignment, the large-scale ArmoRM multi-objective benchmark, and HH-Alignment demonstrate strong worst-case robustness across unseen preference mixtures, model sizes, and data scales, with $\chi^2$-REBEL showing consistently strong empirical performance. A controlled radius--coverage study validates a no-free-lunch trade-off: radii shrinking faster than empirical divergence concentration rates achieve minimax-optimal parametric rates but forfeit coverage, while coverage-guaranteeing radii incur $O(n^{-1/4})$ rates.
- Abstract(参考訳): 人的フィードバックによる強化学習(RLHF)は,大規模言語モデル(LLM)と人間の意図の整合に欠かせないものとなっている。
しかし、既存のオフラインRLHFアプローチは過度な最適化に悩まされ、トレーニング中に観察された望ましい行動からミススペクテーションとドリフトを報酬するモデルが過度に適合する。
DRO-REBELは、タイプ=p$ワッサーシュタイン、KL、および$\chi^2$アンビグニティ集合を持つ堅牢なREBEL更新の族である。
Fenchelの双対性を利用することで、各更新は単純な相対回帰レグレッションに還元され、スケーラビリティが保たれ、PPOスタイルのクリッピングや補助値ネットワークが回避される。
データ被覆条件を持つ標準的な線形回帰および対数線形ポリシークラスの下では、DRO-DPOアプローチよりも厳密な定数を持つ$O(n^{-1/4})$推定境界を確立し、局所化されたラデマッハ複雑性解析によりミニマックス最適$O(n^{-1/2})$レートを回復する。
この分析はワッサーシュタイン-DPOとKL-DPOのギャップを埋め、両者が最適なパラメトリックレートを得ることを示す。
我々は、勾配正則化(Wasserstein)、重み付け(KL)、高速1-D双対解(\chi^2$)の3種すべてに対して実用的なSGDアルゴリズムを導出する。
大規模なArmoRMマルチオブジェクトベンチマークであるEmotion Alignmentの実験とHH-Alignmentは、目に見えない選好ミックス、モデルサイズ、データスケールにまたがる強力な最悪のケースロバスト性を示す。
実験的な分散濃度よりも速く減少するラジイは最小マックス最適パラメトリックレートを達成できるが、適用範囲は制限されるが、カバレッジ保証のラジイは$O(n^{-1/4})$レートである。
関連論文リスト
- Better Rates for Private Linear Regression in the Proportional Regime via Aggressive Clipping [19.186034457189162]
一般的なアプローチは、サンプルごとの勾配の予想基準よりもクリッピング定数をはるかに大きく設定することである。
しかし、分析を単純化する一方で、これは経験的証拠がパフォーマンスを最適化することを示唆しているものとは対照的である。
我々の研究は、クリッピングが頻繁に起こる体制において、理論と実践のギャップを埋める。
論文 参考訳(メタデータ) (2025-05-22T07:34:27Z) - Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning [5.8191965840377735]
ほぼ最適サンプル複雑性を実現するアルゴリズムを2つ提案する。
両アルゴリズムが最適なポリシを推定するために,$widetildeOleft(|mathbfS||mathbfA| t_mathrmmix2varepsilon-2right)のサンプル複雑性が得られることを証明した。
これはDR平均逆強化学習における最初の有限サンプル収束保証である。
論文 参考訳(メタデータ) (2025-05-15T06:42:25Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Near-Optimal Offline Reinforcement Learning via Double Variance
Reduction [36.027428493021716]
Off-Policy Double Variance Reductionは、オフラインRLのための分散化に基づく新しいアルゴリズムである。
OPDVRは$widetildeO(H2/d_mepsilon2)$ episodes of offline dataで$epsilon$-optimal Policyを確実に特定している。
また、OPDVRは、代替設定下でのレート最適化サンプルの複雑さも達成できることを示す。
論文 参考訳(メタデータ) (2021-02-02T20:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。