Fugu-MT 論文翻訳(概要): Active Preference Learning for Large Language Models

論文の概要: Active Preference Learning for Large Language Models

arxiv url: http://arxiv.org/abs/2402.08114v1
Date: Mon, 12 Feb 2024 23:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 17:04:39.915214
Title: Active Preference Learning for Large Language Models
Title（参考訳）: 大規模言語モデルのためのアクティブな選好学習
Authors: William Muldrew, Peter Hayes, Mingtian Zhang, David Barber
Abstract要約: 我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
参考スコア（独自算出の注目度）: 13.211063836237468
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) become more capable, fine-tuning techniques for aligning with human intent are increasingly important. A key consideration for aligning these models is how to most effectively use human resources, or model resources in the case where LLMs themselves are used as oracles. Reinforcement learning from Human or AI preferences (RLHF/RLAIF) is the most prominent example of such a technique, but is complex and often unstable. Direct Preference Optimization (DPO) has recently been proposed as a simpler and more stable alternative. In this work, we develop an active learning strategy for DPO to make better use of preference labels. We propose a practical acquisition function for prompt/completion pairs based on the predictive entropy of the language model and a measure of certainty of the implicit preference model optimized by DPO. We demonstrate how our approach improves both the rate of learning and final performance of fine-tuning on pairwise preference data.
Abstract（参考訳）: 大きな言語モデル(LLM)がより有能になるにつれて、人間の意図に合わせるための微調整技術がますます重要になっている。これらのモデルを調整する上で重要な考慮事項は、LLM自体をオーラクルとして使用する場合、人的資源を効果的に利用する方法、あるいはモデルリソースを使用する方法である。人間やAIの好みからの強化学習(RLHF/RLAIF)はそのようなテクニックの最も顕著な例であるが、複雑で不安定であることが多い。 direct preference optimization (dpo) は、最近よりシンプルでより安定した代替案として提案されている。そこで本研究では, DPO の実践的学習戦略を開発し, 嗜好ラベルをよりよく活用する。本稿では,言語モデルの予測エントロピーとdpo最適化による暗黙的選好モデルの確実性の測定に基づいて,プロンプト/コンプリートペアの実用的獲得関数を提案する。提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。

関連論文リスト

Toward Preference-aligned Large Language Models via Residual-based Model Steering [9.241565393225953]
本稿では,Residual Steering (PaLRS) を用いた大規模言語モデルの参照アライメントを提案する。 PaLRSは、Large Language Modelsの残留ストリームに符号化された好み信号を利用する。各種小型オープンソースLLM上でのPaLRSの評価を行った。
論文参考訳（メタデータ） (2025-09-28T17:16:16Z)
Aligning Large Vision-Language Models by Deep Reinforcement Learning and Direct Preference Optimization [3.6275547549769507]
LVLM(Large Vision-Language Models)またはマルチモーダル大規模言語モデルは、人工知能の大幅な進歩を表している。これらのモデルを人間の価値観と整合させたり、特定のタスクや行動に関わったりするための微調整は、依然として重要な課題である。本総説では、DRLおよびDPO技術を用いてモデルを人間の好みや価値観に合わせる方法について、微調整LVLMのパラダイムを概説する。
論文参考訳（メタデータ） (2025-09-08T14:47:57Z)
InfoPO: On Mutual Information Maximization for Large Language Model Alignment [26.692916936162824]
人選好データを用いた大規模言語モデルのポストトレーニングについて検討する。本稿では、InfoPOと呼ばれる優先選好微調整アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-13T12:37:48Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-03T00:36:31Z)
PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。 PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文参考訳（メタデータ） (2025-02-06T18:09:00Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Investigating on RLHF methodology [0.0]
本稿では,人間の嗜好をシミュレートする選好モデル(Preference Model)の訓練の特徴と,最良の結果を達成する上で不可欠な方法や詳細について論じる。また、強化学習(Reinforcement Learning)を用いて大規模言語モデルを微調整し、直面した課題と克服方法を説明する。
論文参考訳（メタデータ） (2024-10-02T17:46:22Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文参考訳（メタデータ） (2024-05-29T21:29:44Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Direct Preference Optimization With Unobserved Preference Heterogeneity [16.91835461818937]
本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。
論文参考訳（メタデータ） (2024-05-23T21:25:20Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文参考訳（メタデータ） (2023-08-23T10:41:07Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。