論文の概要: Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret
- arxiv url: http://arxiv.org/abs/2603.20453v1
- Date: Fri, 20 Mar 2026 19:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.923564
- Title: Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret
- Title(参考訳): マルチソース不完全な選好からの強化学習:Best-of-Both-Regimes Regret
- Authors: Ming Shi, Yingbin Liang, Ness B. Shroff, Ananthram Swami,
- Abstract要約: 我々は, 累積的不完全化予算を用いて, エンフルティソースの不完全性選好からエピソードRLを考察した。
我々は,最良な登録行動を示す,後悔$tildeO(sqrtK/M+)$の統一アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 71.69884486156359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) replaces hard-to-specify rewards with pairwise trajectory preferences, yet regret-oriented theory often assumes that preference labels are generated consistently from a single ground-truth objective. In practical RLHF systems, however, feedback is typically \emph{multi-source} (annotators, experts, reward models, heuristics) and can exhibit systematic, persistent mismatches due to subjectivity, expertise variation, and annotation/modeling artifacts. We study episodic RL from \emph{multi-source imperfect preferences} through a cumulative imperfection budget: for each source, the total deviation of its preference probabilities from an ideal oracle is at most $ω$ over $K$ episodes. We propose a unified algorithm with regret $\tilde{O}(\sqrt{K/M}+ω)$, which exhibits a best-of-both-regimes behavior: it achieves $M$-dependent statistical gains when imperfection is small (where $M$ is the number of sources), while remaining robust with unavoidable additive dependence on $ω$ when imperfection is large. We complement this with a lower bound $\tildeΩ(\max\{\sqrt{K/M},ω\})$, which captures the best possible improvement with respect to $M$ and the unavoidable dependence on $ω$, and a counterexample showing that naïvely treating imperfect feedback as as oracle-consistent can incur regret as large as $\tildeΩ(\min\{ω\sqrt{K},K\})$. Technically, our approach involves imperfection-adaptive weighted comparison learning, value-targeted transition estimation to control hidden feedback-induced distribution shift, and sub-importance sampling to keep the weighted objectives analyzable, yielding regret guarantees that quantify when multi-source feedback provably improves RLHF and how cumulative imperfection fundamentally limits it.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、厳格な報酬をペアの軌道上の好みに置き換えるが、後悔指向の理論では、選好ラベルは単一目標から一貫して生成されると仮定することが多い。
しかし、実践的なRLHFシステムでは、フィードバックは典型的には「emph{multi-source}」(注釈、専門家、報酬モデル、ヒューリスティックス)であり、主観性、専門性の変化、アノテーション/モデリングアーティファクトによる体系的かつ永続的なミスマッチを示すことができる。
本研究では,emph{multi-source imperfect preferences} のエピソード RL を累積的不完全度予算により検討する。
我々は,不完全度が小さい場合(M$は情報源数である場合)に$M$依存統計ゲインを達成し,不完全度が大きい場合の$ω$に対する避けられない付加的依存性を保ちながら,最良なボトム・レジズ動作を示す,後悔$\tilde{O}(\sqrt{K/M}+ω)$の統一アルゴリズムを提案する。
これを下界の$\tildeΩ(\max\{\sqrt{K/M},ω\})$で補うと、$M$と$ω$に対する避けられない依存に関して最高の改善が得られる。
技術的には、本手法は、不完全適応重み付け比較学習、隠れフィードバックによる分布シフトを制御するための値目標遷移推定、重み付けされた目的を分析可能に保つためのサブインパタンスサンプリング、マルチソースフィードバックがRLHFを確実に改善し、累積不完全さが根本的に制限する際の後悔の保証を与える。
関連論文リスト
- Singular Bayesian Neural Networks [1.2891210250935148]
ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。
我々は、ルベーグ測度に関して特異な後部を誘導し、ランク-$r$多様体に集中する。
複素項が $sqrtr(m+n)$ ではなく $sqrtm n$ としてスケールするPAC-Bayes 一般化境界を導出し、誤差を最適化とランク誘導バイアスに分解する損失境界を証明する。
論文 参考訳(メタデータ) (2026-01-30T23:06:34Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment [0.0]
人的フィードバックによる強化学習(RLHF)は,大規模言語モデル(LLM)と人間の意図の整合に欠かせないものとなっている。
DRO-REBELは、タイプ=$p$Wasserstein, KL, $chi2$ ambiguity集合を持つ堅牢なREBEL更新の集合である。
Fenchelの双対性を利用することで、各更新は単純な相対回帰レグレッションに還元され、スケーラビリティが保たれ、PPOスタイルのクリッピングや補助値ネットワークが回避される。
論文 参考訳(メタデータ) (2025-09-23T14:49:48Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Rethinking gradient sparsification as total error minimization [0.0]
分散トレーニングネットワーク(DNN)における通信ボトルネックに対処する手段として,グラディエント圧縮が広く確立されている。
我々は、特にDNNにとって、勾配スペーシフィケーションの利点は必要であると主張する。
論文 参考訳(メタデータ) (2021-08-02T14:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。