Fugu-MT 論文翻訳(概要): Fine-Tuning Language Models with Reward Learning on Policy

論文の概要: Fine-Tuning Language Models with Reward Learning on Policy

arxiv url: http://arxiv.org/abs/2403.19279v1
Date: Thu, 28 Mar 2024 10:02:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 16:43:33.392226
Title: Fine-Tuning Language Models with Reward Learning on Policy
Title（参考訳）: 政策学習を考慮した微調整言語モデル
Authors: Hao Lang, Fei Huang, Yongbin Li,
Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
参考スコア（独自算出の注目度）: 68.70065254564642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning from human feedback (RLHF) has emerged as an effective approach to aligning large language models (LLMs) to human preferences. RLHF contains three steps, i.e., human preference collecting, reward learning, and policy optimization, which are usually performed serially. Despite its popularity, however, (fixed) reward models may suffer from inaccurate off-distribution, since policy optimization continuously shifts LLMs' data distribution. Repeatedly collecting new preference data from the latest LLMs may alleviate this issue, which unfortunately makes the resulting system more complicated and difficult to optimize. In this paper, we propose reward learning on policy (RLP), an unsupervised framework that refines a reward model using policy samples to keep it on-distribution. Specifically, an unsupervised multi-view learning method is introduced to learn robust representations of policy samples. Meanwhile, a synthetic preference generation approach is developed to simulate high-quality preference data with policy outputs. Extensive experiments on three benchmark datasets show that RLP consistently outperforms the state-of-the-art. Our code is available at \url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp}.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。 RLHFには、人間の嗜好収集、報酬学習、政策最適化という3つのステップが含まれており、通常は連続して実行される。しかし、その人気にもかかわらず(固定された)報酬モデルでは、ポリシー最適化がLLMのデータ分散を継続的にシフトするため、不正確なオフディストリビューションに悩まされる可能性がある。最新のLCMから新たな選好データを繰り返し収集することでこの問題が軽減される可能性があるため、残念ながら、システムはより複雑で最適化が難しい。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、ポリシーに関する報酬学習(RLP)を提案する。具体的には、ポリシーサンプルの堅牢な表現を学習するために、教師なしの多視点学習法を導入する。一方、ポリシー出力で高品質な嗜好データをシミュレートする合成選好生成手法が開発されている。 3つのベンチマークデータセットに対する大規模な実験は、RLPが一貫して最先端よりも優れていることを示している。私たちのコードは、 \url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp}で利用可能です。

関連論文リスト

Real-Time Aligned Reward Model beyond Semantics [49.717236911878224]
本稿では,R2M(Real-Time Aligned Reward Model)という軽量なRLHFフレームワークを紹介する。 R2Mは、事前訓練されたLLMの意味表現のみに依存するバニラ報酬モデルを越えている。この研究は、ポリシーモデルからのフィードバックをリアルタイムで活用することで、報酬モデルの性能を向上させるための有望な新しい方向性を示している。
論文参考訳（メタデータ） (2026-01-30T07:32:35Z)
Towards Efficient Online Exploration for Reinforcement Learning with Human Feedback [12.158181906895186]
人間のフィードバックによる強化学習は、大きな言語モデルと人間の好みを整合させる中心的なパラダイムとして現れてきた。オンラインRLHFの探索原理について検討し、報酬モデルとポリシーの両方をデータ効率のよい方法で洗練しようとする。そこで本研究では,報酬差の不確実性を抑えるために,嗜好クエリを指示する新たな探索手法を提案する。
論文参考訳（メタデータ） (2025-09-26T17:57:17Z)
From Demonstrations to Rewards: Alignment Without Explicit Human Preferences [55.988923803469305]
本稿では,逆強化学習原理に基づく学習アライメントの新たな視点を提案する。大規模な選好データに頼る代わりに、デモデータから報酬モデルを直接学習する。
論文参考訳（メタデータ） (2025-03-15T20:53:46Z)
MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment [14.541973333460149]
Mixing Preference Optimization (MPO)は、単一目的ポリシーを集約するための後処理フレームワークである。 MPOは様々な好みにまたがるバランスの取れた性能を実現し、計算コストを大幅に削減した既存モデルより優れている。
論文参考訳（メタデータ） (2025-02-25T23:22:12Z)
PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。 PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文参考訳（メタデータ） (2025-02-06T18:09:00Z)
Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。この設定で PbRL に関する最初の理論的保証を提供し、単純ベイズ的後悔の上限を確立する。
論文参考訳（メタデータ） (2025-01-31T03:55:10Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Post-hoc Reward Calibration: A Case Study on Length Bias [28.266675778940133]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文参考訳（メタデータ） (2024-09-25T22:30:42Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation [13.2216273705657]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)が指示に従い、無害な応答を提供するのを助ける重要な手法の1つである。直接的なポリシー最適化手法は存在するが、最先端のLCMはRLベースの手法(通常はPPO)をRLHFに導入し、優先データから学習した報酬モデルによって導かれる良い応答を生成するようにポリシーを訓練する。報酬モデルの信頼性は、異なる報酬が割り当てられた応答によって異なることがわかった。これにより、報酬が信頼できないサンプルをフィルタリングし、政策学習時の信号対雑音比を改善する動機付けとなる。
論文参考訳（メタデータ） (2024-09-11T02:40:38Z)
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。 LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文参考訳（メタデータ） (2024-06-30T08:00:34Z)
Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文参考訳（メタデータ） (2024-06-27T14:03:49Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。