Fugu-MT 論文翻訳(概要): Generalizing Reward Modeling for Out-of-Distribution Preference Learning

論文の概要: Generalizing Reward Modeling for Out-of-Distribution Preference Learning

arxiv url: http://arxiv.org/abs/2402.14760v1
Date: Thu, 22 Feb 2024 18:20:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 14:17:03.460735
Title: Generalizing Reward Modeling for Out-of-Distribution Preference Learning
Title（参考訳）: 配当選好学習における報酬モデリングの一般化
Authors: Chen Jia
Abstract要約: 大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
参考スコア（独自算出の注目度）: 3.9160947065896803
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference learning (PL) with large language models (LLMs) aims to align the LLMs' generations with human preferences. Previous work on reinforcement learning from human feedback (RLHF) has demonstrated promising results in in-distribution PL. However, due to the difficulty of obtaining human feedback, discretely training reward models for every encountered distribution is challenging. Thus, out-of-distribution (OOD) PL is practically useful for enhancing the generalization ability of LLMs with limited preference feedback. This work addresses OOD PL by optimizing a general reward model through a meta-learning approach. During meta-training, a bilevel optimization algorithm is utilized to learn a reward model capable of guiding policy learning to align with human preferences across various distributions. When encountering a test distribution, the meta-test procedure conducts regularized policy optimization using the learned reward model for PL. We theoretically demonstrate the convergence rate of the bilevel optimization algorithm under reasonable assumptions. Additionally, we conduct experiments on two text generation tasks across 20 held-out domains and outperform a variety of strong baselines across various evaluation metrics.
Abstract（参考訳）: 大規模言語モデル(LLM)を用いた優先度学習(PL)は、LLM世代を人間の好みに合わせることを目的としている。人的フィードバック(RLHF)からの強化学習に関するこれまでの研究は、流通PLの有望な成果を示している。しかし、人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。したがって, オフ・オブ・ディストリビューション(OOD)PLは, LLMの一般化能力を高めるのに有効である。本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。メタトレーニング中、二段階最適化アルゴリズムを使用して、様々な分布にまたがる人間の好みに合わせてポリシー学習を導くことができる報酬モデルを学ぶ。テスト分布に遭遇すると、メタテスト手順はPLの学習報酬モデルを用いて規則化されたポリシー最適化を行う。理論的には、2レベル最適化アルゴリズムの収束率を合理的な仮定で示す。さらに,20個のホルドアウトドメインにおける2つのテキスト生成タスクの実験を行い,様々な評価指標において,強固なベースラインを上回った。

関連論文リスト

Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-04-13T20:10:27Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:59:11Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
On the Generalization of Preference Learning with DPO [17.420727709895736]
大きな言語モデル(LLM)は目覚ましい能力を示してきたが、しばしば人間の好みに合わせるのに苦労している。嗜好学習は、人間のフィードバックに基づいて、好ましくない反応と好ましくない反応を区別するモデルを訓練する。本稿では、直接選好最適化(DPO)で訓練されたモデルの一般化保証を解析するための新しい理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-08-06T22:11:00Z)
Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文参考訳（メタデータ） (2024-06-04T20:21:45Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文参考訳（メタデータ） (2024-04-22T17:20:18Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文参考訳（メタデータ） (2023-12-01T19:26:23Z)
Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文参考訳（メタデータ） (2023-01-26T18:07:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。