論文の概要: Distributional Preference Alignment of LLMs via Optimal Transport
- arxiv url: http://arxiv.org/abs/2406.05882v1
- Date: Sun, 9 Jun 2024 18:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:38:03.662474
- Title: Distributional Preference Alignment of LLMs via Optimal Transport
- Title(参考訳): 最適輸送によるLLMの配向
- Authors: Igor Melnyk, Youssef Mroueh, Brian Belgodere, Mattia Rigotti, Apoorva Nitsure, Mikhail Yurochkin, Kristjan Greenewald, Jiri Navratil, Jerret Ross,
- Abstract要約: 最適輸送(AOT)によるアライメント(Alignment)と呼ばれるLLMの分布選好アライメント手法を提案する。
AOTは、正のサンプルの報酬分布を負のサンプルの分布の第1次において支配的に支配することにより、LLMを未ペアの選好データに整合させる。
AOTは,Open LLM BenchmarksとAlpacaEvalで評価すると,7Bモデルの最先端モデルにつながることを示す。
- 参考スコア(独自算出の注目度): 36.95053112313244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current LLM alignment techniques use pairwise human preferences at a sample level, and as such, they do not imply an alignment on the distributional level. We propose in this paper Alignment via Optimal Transport (AOT), a novel method for distributional preference alignment of LLMs. AOT aligns LLMs on unpaired preference data by making the reward distribution of the positive samples stochastically dominant in the first order on the distribution of negative samples. We introduce a convex relaxation of this first-order stochastic dominance and cast it as an optimal transport problem with a smooth and convex cost. Thanks to the one-dimensional nature of the resulting optimal transport problem and the convexity of the cost, it has a closed-form solution via sorting on empirical measures. We fine-tune LLMs with this AOT objective, which enables alignment by penalizing the violation of the stochastic dominance of the reward distribution of the positive samples on the reward distribution of the negative samples. We analyze the sample complexity of AOT by considering the dual of the OT problem and show that it converges at the parametric rate. Empirically, we show on a diverse set of alignment datasets and LLMs that AOT leads to state-of-the-art models in the 7B family of models when evaluated with Open LLM Benchmarks and AlpacaEval.
- Abstract(参考訳): 現在のLLMアライメント技術では、サンプルレベルでの人間の好みをペアで使うため、分布レベルでのアライメントは意味しない。
本稿では,LLMの分布選好アライメント法である最適輸送(AOT)によるアライメントを提案する。
AOTは、正のサンプルの報酬分布を、負のサンプルの分布の第1次において確率的に支配的に支配することにより、LLMを未ペアの選好データに整合させる。
我々は,この一階確率支配の凸緩和を導入し,円滑で凸なコストで最適な輸送問題とした。
結果として生じる最適輸送問題の1次元の性質とコストの凸性のおかげで、経験的測度をソートすることで閉形式解が得られる。
本研究の目的は, 正試料の報酬分布の確率的優位性の違反を負試料の報酬分布に課すことによってアライメントを可能にすることにある。
OT問題の双対性を考慮することにより,AOTのサンプル複雑性を解析し,パラメトリックレートで収束することを示す。
実験では, Open LLM Benchmarks と AlpacaEval を用いて評価すると, AOT が 7B モデルの最先端モデルに導く多種多様なアライメントデータセットと LLM について述べる。
関連論文リスト
- BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models [11.063964007950249]
本稿では,汎用的な定式化 emphBidirectional Linear Explicit Multi-step (BELM) について紹介する。
BELMの定式化は可変段-形式線形多段法から導かれる。
精度の高いインバージョン・スライダの既存の設計が準最適最小化をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-09T06:32:26Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Learning Optimal Transport Between two Empirical Distributions with
Normalizing Flows [12.91637880428221]
本稿では、ニューラルネットワークの柔軟性を活用して、最適輸送マップを近似的に学習することを提案する。
我々は、このOT問題の解を近似するために、非可逆ニューラルネットワークの特定の例、すなわち正規化フローが利用できることを示した。
論文 参考訳(メタデータ) (2022-07-04T08:08:47Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Midpoint Regularization: from High Uncertainty Training to Conservative
Classification [19.252319300590653]
Label Smoothing (LS)は、過信出力分布の生成からモデルをペナライズすることでモデル一般化を改善する。
PLSはまず、ランダムなサンプルペアを平均化して中点サンプルを作成し、その後、各中点サンプルのトレーニング中に滑らかな分布を学習し、その結果、トレーニングのための高い不確実性ラベルを持つ中点を学習する。
論文 参考訳(メタデータ) (2021-06-26T00:31:46Z) - A Distributional Approach to Controlled Text Generation [3.279201607581627]
予め訓練された言語モデル(LM)から制御されたテキスト生成に対処するための分布的アプローチを提案する。
このビューでは、単一の形式的なフレームワークで、ターゲット lm 上で "pointwise" と "distributional" の制約を定義することができる。
次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。
論文 参考訳(メタデータ) (2020-12-21T19:02:41Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。