Fugu-MT 論文翻訳(概要): REFA: Reference Free Alignment for multi-preference optimization

論文の概要: REFA: Reference Free Alignment for multi-preference optimization

arxiv url: http://arxiv.org/abs/2412.16378v1
Date: Fri, 20 Dec 2024 22:25:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.884531
Title: REFA: Reference Free Alignment for multi-preference optimization
Title（参考訳）: REFA:マルチ参照最適化のための参照自由アライメント
Authors: Taneesh Gupta, Rahul Madhavan, Xuchao Zhang, Chetan Bansal, Saravan Rajmohan,
Abstract要約: REFAは、複数のユーザの好みを最適化する参照不要アライメントメソッドのファミリーである。我々の最高のREFA構成は、AlpacaEval v2ベンチマークでLC-WRが21.62%、WRが19.87%に達した。
参考スコア（独自算出の注目度）: 16.230186347702737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce REFA, a family of reference-free alignment methods that optimize over multiple user preferences while enforcing fine-grained length control. Our approach integrates deviation-based weighting to emphasize high-quality responses more strongly, length normalization to prevent trivial short-response solutions, and an EOS-probability regularizer to mitigate dataset-induced brevity biases. Theoretically, we show that under the Uncertainty Reduction with Sequence Length Assertion (URSLA), naive length normalization can still incentivize length-based shortcuts. By contrast, REFA corrects these subtle incentives, guiding models toward genuinely more informative and higher-quality outputs. Empirically, REFA sets a new state-of-the-art among reference-free alignment methods, producing richer responses aligned more closely with human preferences. Compared to a base supervised fine-tuned (SFT) mistral-7b model that achieves 8.4% length-controlled win rate (LC-WR) and 6.2% win rate (WR), our best REFA configuration attains 21.62% LC-WR and 19.87% WR on the AlpacaEval v2 benchmark. This represents a substantial improvement over both the strongest multi-preference baseline, InfoNCA (16.82% LC-WR, 10.44% WR), and the strongest reference-free baseline, SimPO (20.01% LC-WR, 17.65% WR)
Abstract（参考訳）: 本稿では,複数のユーザの好みを最適化する参照不要アライメント手法のファミリーであるREFAを紹介する。提案手法は, 偏差重み付けによる高次応答の強調, 自明な短応答解の回避のための長さ正規化, および, データセットによるフレビティバイアスを軽減するためのEOS確率正規化器を統合した。理論的には, シーケンス長付加による不確実性低減 (URSLA) の下では, ナイーブ長正規化は長さベースショートカットをインセンティブにすることができる。対照的に、REFAはこれらの微妙なインセンティブを修正し、真に情報的で高品質なアウトプットに向けてモデルを導く。実証的に、REFAは参照なしアライメント手法の中で新しい最先端の手法を設定し、よりリッチな応答を人間の好みにより密に一致させる。 The base supervised fine-tuned (SFT) mistral-7b model that achieve a 8.4% length-control win rate (LC-WR) and 6.2% win rate (WR), our most REFA configuration at 21.62% LC-WR and 19.87% WR on the AlpacaEval v2 benchmark。これは、最も強いマルチ参照ベースラインであるInfoNCA(16.82% LC-WR, 10.44% WR)と、最も強い参照のないベースラインであるSimPO(20.01% LC-WR, 17.65% WR)よりも大幅に改善されている。

関連論文リスト

Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Length-Controlled Margin-Based Preference Optimization without Reference Model [11.878496378814045]
好みに基づく強化学習のためのLongth-Controlled Margin-Based Preference Optimization (LMPO)を提案する。 LMPOの重要な革新は、Bradley-Terryフレームワークに組み込まれたLongth-Controlled Marginベースの損失関数である。実験の結果,LMPOは応答長を効果的に制御し,確率劣化を低減し,既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-20T15:30:27Z)
Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文参考訳（メタデータ） (2025-02-19T07:10:32Z)
Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。変分推論の観点からRLHFの単純化を提案する。我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文参考訳（メタデータ） (2025-02-16T07:22:00Z)
REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [8.587685197004097]
REINFORCE++は、バッチの正規化報酬をベースラインとして使用しながら、批判モデルを削除する新しいアプローチである。プロンプトセットのトランケーションを必要とせずに、様々な報酬モデルに対して堅牢なパフォーマンスを示す。既存のREINFORCE法と比較して、RLHFとロングチェーン設定の両方において優れた一般化を実現している。
論文参考訳（メタデータ） (2025-01-04T02:08:06Z)
SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment [16.230186347702737]
我々はSWEPO(Sultaneous Weighted Preference Optimization)を提案する。 SWEPOはクエリ毎に複数のレスポンスを導入し、平均的な報酬から最も逸脱したレスポンスを優先順位付けする。このような多重参照サンプリングはアライメントバイアスを低くし、真の許容応答分布から期待される偏差を$mathcalO(tfrac1sqrtk)$とすることを示した。
論文参考訳（メタデータ） (2024-12-05T21:50:22Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文参考訳（メタデータ） (2024-09-10T17:54:28Z)
Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。 HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文参考訳（メタデータ） (2024-08-18T07:04:16Z)
Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。 $chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。 $chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文参考訳（メタデータ） (2024-07-18T11:08:40Z)
Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文参考訳（メタデータ） (2024-06-21T18:06:30Z)
Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文参考訳（メタデータ） (2024-06-18T02:03:12Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
$i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。 i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文参考訳（メタデータ） (2024-05-24T05:42:11Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-01-21T10:46:23Z)
Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文参考訳（メタデータ） (2023-06-30T09:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。