論文の概要: Contextual Online Uncertainty-Aware Preference Learning for Human Feedback
- arxiv url: http://arxiv.org/abs/2504.19342v2
- Date: Tue, 29 Apr 2025 19:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.246128
- Title: Contextual Online Uncertainty-Aware Preference Learning for Human Feedback
- Title(参考訳): ヒューマンフィードバックのための文脈的オンライン不確実性を考慮した選好学習
- Authors: Nan Lu, Ethan X. Fang, Junwei Lu,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は人工知能において重要なパラダイムとなっている。
最適モデルに基づくオンライン意思決定と統計的推測を同時に行うための新しい統計的枠組みを提案する。
本稿では,大規模マルチタスク言語理解データセット上での大規模言語モデルのランク付けのための人間の嗜好データ分析に,提案手法を適用した。
- 参考スコア(独自算出の注目度): 13.478503755314344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm in artificial intelligence to align large models with human preferences. In this paper, we propose a novel statistical framework to simultaneously conduct the online decision-making and statistical inference on the optimal model using human preference data based on dynamic contextual information. Our approach introduces an efficient decision strategy that achieves both the optimal regret bound and the asymptotic distribution of the estimators. A key challenge in RLHF is handling the dependent online human preference outcomes with dynamic contexts. To address this, in the methodological aspect, we propose a two-stage algorithm starting with $\epsilon$-greedy followed by exploitations; in the theoretical aspect, we tailor anti-concentration inequalities and matrix martingale concentration techniques to derive the uniform estimation rate and asymptotic normality of the estimators using dependent samples from both stages. Extensive simulation results demonstrate that our method outperforms state-of-the-art strategies. We apply the proposed framework to analyze the human preference data for ranking large language models on the Massive Multitask Language Understanding dataset, yielding insightful results on the performance of different large language models for medical anatomy knowledge.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、人間の好みに合わせるために人工知能において重要なパラダイムとなっている。
本稿では,動的文脈情報に基づく人選好データを用いた最適モデル上で,オンライン意思決定と統計的推測を同時に行うための新しい統計的枠組みを提案する。
提案手法では, 最適後悔境界と漸近分布を両立させる効率的な決定戦略を提案する。
RLHFの重要な課題は、動的コンテキストで依存するオンライン人の嗜好結果を扱うことだ。
そこで,本手法では,2段階のアルゴリズムを$\epsilon$-greedyから適用し,理論的には,各段階からの依存サンプルを用いた推定器の均一推定率と漸近正規度を導出するために,反集中不等式と行列マーチンゲール濃度の調整を行う。
その結果,本手法は最先端の手法よりも優れていることがわかった。
提案手法を用いて,大規模マルチタスク言語理解データセット上での大規模言語モデルのランク付けのための人為的嗜好データを解析し,医療解剖学的知識のための大規模言語モデルの性能に関する洞察力のある結果を得る。
関連論文リスト
- Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [3.30671592417223]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。
既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。
そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-03T16:16:35Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - A Foundational Brain Dynamics Model via Stochastic Optimal Control [15.8358479596609]
最適制御(SOC)と償却推論を利用する脳力学の基礎モデルを提案する。
本手法は,fMRI信号の複雑なノイズ特性を頑健に扱える連続離散状態空間モデル(SSM)を特徴とする。
我々のモデルは、人口統計予測、形質分析、疾患診断、予後など、さまざまな下流課題において最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:57:26Z) - Reviving The Classics: Active Reward Modeling in Large Language Model Alignment [7.041595238178957]
人間の好みからニューラル報酬モデルを構築することは、強化学習において重要な要素である。
人間のアノテーションの不足と高いコストを考えると、アノテートする最も情報に富んだペアをどうやって選ぶかは、不可欠だが挑戦的なオープンな問題である。
我々は、フィッシャー情報に基づく選択戦略を提案し、古典的な実験設計文献から理論を適応させ、それらをディープニューラルネットワークに基づく報酬モデリングタスクの最終線形層に適用する。
論文 参考訳(メタデータ) (2025-02-04T18:47:11Z) - Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。
大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文 参考訳(メタデータ) (2025-01-24T20:39:38Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - A Probabilistic Approach for Model Alignment with Human Comparisons [7.6656660956453635]
本研究では,従来の教師あり学習プロセスを強化できる条件を解析するための理論的枠組みを開発する。
本稿では,機械学習と人間のフィードバックを結びつける2段階の"Supervised Learning+Learning from Human Feedback"(SL+LHF)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T02:19:21Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Learnability of Competitive Threshold Models [11.005966612053262]
理論的観点から,競合しきい値モデルの学習可能性について検討する。
ニューラルネットワークによって競合しきい値モデルをシームレスにシミュレートする方法を実証する。
論文 参考訳(メタデータ) (2022-05-08T01:11:51Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。