Fugu-MT 論文翻訳(概要): A Theoretical Analysis of Nash Learning from Human Feedback under General KL-Regularized Preference

論文の概要: A Theoretical Analysis of Nash Learning from Human Feedback under General KL-Regularized Preference

arxiv url: http://arxiv.org/abs/2402.07314v1
Date: Sun, 11 Feb 2024 21:44:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 16:20:48.290128
Title: A Theoretical Analysis of Nash Learning from Human Feedback under General KL-Regularized Preference
Title（参考訳）: 一般kl正規化選好における人間フィードバックからのnash学習の理論解析
Authors: Chenlu Ye, Wei Xiong, Yuheng Zhang, Nan Jiang, Tong Zhang
Abstract要約: 我々は、最近提案された学習パラダイム、NLHF(Nash Learning from Human feedback)の理論的洞察を提供する。学習の目的は、競合するポリシーよりも好まれる応答を一貫して生成するポリシーを見つけることである。この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。
参考スコア（独自算出の注目度）: 19.205014621289678
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) learns from the preference signal provided by a probabilistic preference model, which takes a prompt and two responses as input, and produces a score indicating the preference of one response against another. So far, the most popular RLHF paradigm is reward-based, which starts with an initial step of reward modeling, and the constructed reward is then used to provide a reward signal for the subsequent reward optimization stage. However, the existence of a reward function is a strong assumption and the reward-based RLHF is limited in expressivity and cannot capture the real-world complicated human preference. In this work, we provide theoretical insights for a recently proposed learning paradigm, Nash learning from human feedback (NLHF), which considered a general preference model and formulated the alignment process as a game between two competitive LLMs. The learning objective is to find a policy that consistently generates responses preferred over any competing policy while staying close to the initial model. The objective is defined as the Nash equilibrium (NE) of the KL-regularized preference model. We aim to make the first attempt to study the theoretical learnability of the KL-regularized NLHF by considering both offline and online settings. For the offline learning from a pre-collected dataset, we propose algorithms that are efficient under suitable coverage conditions of the dataset. For batch online learning from iterative interactions with a preference oracle, our proposed algorithm enjoys a finite sample guarantee under the structural condition of the underlying preference model. Our results connect the new NLHF paradigm with traditional RL theory, and validate the potential of reward-model-free learning under general preference.
Abstract（参考訳）: 人的フィードバック(rlhf)からの強化学習は、プロンプトと2つの応答を入力として、確率的選好モデルが提供する選好信号から学習し、一方の反応の選好を示すスコアを生成する。これまでのところ、最も一般的なRLHFパラダイムは報酬ベースであり、報酬モデリングの最初のステップから始まり、構築された報酬を使用して報酬最適化段階の報酬信号を提供する。しかし、報酬関数の存在は強い仮定であり、報酬ベースのrlhfは表現力に制限があり、現実世界の複雑な人間の好みを捉えることができない。本研究では,最近提案された学習パラダイムであるnash learning from human feedback (nlhf)に対する理論的洞察を提供する。学習の目的は、初期モデルに近づいたまま、いかなる競合ポリシーよりも常に好まれる応答を生成するポリシーを見つけることである。目的は、KL正規化選好モデルのナッシュ平衡(NE)として定義される。我々は,オフライン環境とオンライン環境の両方を考慮したkl正規化nlhfの理論学習可能性の研究を初めて行おうとする。予め収集したデータセットからオフライン学習を行うために,データセットの適切なカバレッジ条件下で効率的なアルゴリズムを提案する。選好託と反復的な相互作用からバッチオンライン学習を行う場合、提案アルゴリズムは、基礎となる選好モデルの構造条件下で有限サンプル保証を享受する。この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。

関連論文リスト

Debiasing Online Preference Learning via Preference Feature Preservation [64.55924745257951]
最近の嗜好学習フレームワークは、二対比較とスカラー報酬で人間の嗜好を簡単にする。これにより、大規模言語モデルの反応は、主に好まれる特徴に偏り、オンラインの嗜好学習ステップのイテレーション中に悪化する可能性がある。本研究では,人間の嗜好特徴の分布を維持するための嗜好特徴保存法を提案し,オンライン選好学習プロセスを通じてそのようなリッチな信号を利用する。
論文参考訳（メタデータ） (2025-06-06T13:19:07Z)
Necessary and Sufficient Oracles: Toward a Computational Taxonomy For Reinforcement Learning [28.184175745050474]
本稿では,教師付き学習オラクルの選択が強化学習アルゴリズムの計算複雑性に与える影響について検討する。まず、標準的なエピソード・アクセス・モデルにおいて、2コンテキスト回帰を最小のオラクルとみなす。第二に、より強いリセットアクセスモデルにおいて、一文回帰を最小に近いオラクルとみなす。第3に、我々はLow-Rank MDPに焦点を絞り、Block MDP設定の類似のオラクルが不十分であることを示す暗号的証拠を与えます。
論文参考訳（メタデータ） (2025-02-12T18:47:13Z)
PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。 PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文参考訳（メタデータ） (2025-02-06T18:09:00Z)
Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文参考訳（メタデータ） (2025-01-22T09:12:09Z)
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文参考訳（メタデータ） (2024-08-07T04:20:28Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文参考訳（メタデータ） (2024-05-26T07:00:05Z)
Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文参考訳（メタデータ） (2024-05-23T14:53:54Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
On the Statistical Benefits of Curriculum Learning [33.94130046391917]
本研究では,マルチタスク線形回帰問題におけるカリキュラム学習(CL)の利点について,構造化と非構造化の両方の条件下で検討する。その結果,適応学習は,非構造化環境でのオラクル学習よりも根本的に困難であることが判明した。
論文参考訳（メタデータ） (2021-11-13T14:51:07Z)
Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文参考訳（メタデータ） (2020-02-12T11:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。