論文の概要: Robust Preference Optimization with Provable Noise Tolerance for LLMs
- arxiv url: http://arxiv.org/abs/2404.04102v1
- Date: Fri, 5 Apr 2024 13:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 16:05:12.535874
- Title: Robust Preference Optimization with Provable Noise Tolerance for LLMs
- Title(参考訳): LLMの耐雑音性を考慮したロバスト優先最適化
- Authors: Xize Liang, Chao Chen, Jie Wang, Yue Wu, Zhihang Fu, Zhihao Shi, Feng Wu, Jieping Ye,
- Abstract要約: 好みのアライメントは、大きな言語モデルが人間の値に適合する応答を生成できるようにすることを目的としている。
レスポンスペアの比較のランキングラベルは 必然的に騒がしい。
そこで本研究では,ノイズ耐性のある優先アライメント手法,すなわちRObust Preference Optimizationを提案する。
- 参考スコア(独自算出の注目度): 59.04090161300883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The preference alignment aims to enable large language models (LLMs) to generate responses that conform to human values, which is essential for developing general AI systems. Ranking-based methods -- a promising class of alignment approaches -- learn human preferences from datasets containing response pairs by optimizing the log-likelihood margins between preferred and dis-preferred responses. However, due to the inherent differences in annotators' preferences, ranking labels of comparisons for response pairs are unavoidably noisy. This seriously hurts the reliability of existing ranking-based methods. To address this problem, we propose a provably noise-tolerant preference alignment method, namely RObust Preference Optimization (ROPO). To the best of our knowledge, ROPO is the first preference alignment method with noise-tolerance guarantees. The key idea of ROPO is to dynamically assign conservative gradient weights to response pairs with high label uncertainty, based on the log-likelihood margins between the responses. By effectively suppressing the gradients of noisy samples, our weighting strategy ensures that the expected risk has the same gradient direction independent of the presence and proportion of noise. Experiments on three open-ended text generation tasks with four base models ranging in size from 2.8B to 13B demonstrate that ROPO significantly outperforms existing ranking-based methods.
- Abstract(参考訳): 嗜好アライメントは、一般的なAIシステムを開発する上で不可欠な、人間の値に適合する応答を生成するために、大きな言語モデル(LLM)を可能にすることを目的としている。
ランク付けベースの手法(アライメントアプローチの有望なクラス)は、好ましくない応答と好ましくない応答の間のログライクなマージンを最適化することで、応答ペアを含むデータセットから人間の好みを学習する。
しかし、アノテータの好みに固有の違いがあるため、応答対の比較のランキングラベルは避けられないほどうるさい。
これは既存のランキングベースの手法の信頼性を著しく損なう。
この問題に対処するため,ROPO (RObust Preference Optimization) というノイズ耐性のある優先アライメント手法を提案する。
我々の知る限りでは、ROPOは耐雑音性を保証する最初の選好アライメント法である。
ROPOの鍵となる考え方は、応答間のログライクなマージンに基づいて、ラベルの不確かさの高い応答対に対して、保守的な勾配重みを動的に割り当てることである。
雑音の勾配を効果的に抑制することにより, 重み付け戦略により, 騒音の有無と比によらず, 予測されるリスクが同じ勾配方向であることを保証する。
ROPOは2.8Bから13Bまでの4つの基本モデルを持つ3つのオープンエンドテキスト生成タスクの実験により、ROPOが既存のランキングベースの手法を大幅に上回ることを示した。
関連論文リスト
- Impact of Preference Noise on the Alignment Performance of Generative Language Models [31.64856885517905]
2つのタスク(要約と対話生成)における好み雑音がアライメント性能に及ぼす影響について検討する。
その結果、アライメント性能は、優先データにおけるノイズ率に非常に敏感であることが判明した。
ノイズの影響を軽減するため、信頼度に基づくデータフィルタリングは特定のノイズが存在する場合に大きな利点を示す。
論文 参考訳(メタデータ) (2024-04-15T14:21:53Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。