Fugu-MT 論文翻訳(概要): Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization

論文の概要: Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization

arxiv url: http://arxiv.org/abs/2409.11212v1
Date: Tue, 17 Sep 2024 14:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 16:35:30.154379
Title: Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization
Title（参考訳）: 不確実性強化された選好最適化による自己進化型大規模言語モデル
Authors: Jianing Wang, Yang Zhou, Xiaocheng Zhang, Mengjiao Bao, Peng Yan,
Abstract要約: 反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
参考スコア（独自算出の注目度）: 9.618391485742968
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Iterative preference optimization has recently become one of the de-facto training paradigms for large language models (LLMs), but the performance is still underwhelming due to too much noisy preference data yielded in the loop. To combat this issue, we present an \textbf{U}ncertainty-enhanced \textbf{P}reference \textbf{O}ptimization (UPO) framework to make the LLM self-evolve with reliable feedback. The key idea is mitigating the noisy preference data derived from the current policy and reward models by performing pair-wise uncertainty estimation and judiciously reliable feedback sampling. To reach this goal, we thus introduce an estimator model, which incorporates Monte Carlo (MC) dropout in Bayesian neural network (BNN) to perform uncertainty estimation for the preference data derived from the LLM policy. Compared to the existing methods that directly filter generated responses based on the reward score, the estimator focuses on the model uncertainty in a pair-wise manner and effectively bypasses the confirmation bias problem of the reward model. Additionally, we also propose an uncertainty-enhanced self-evolution algorithm to improve the robustness of preference optimization and encourage the LLM to generate responses with both high reward and certainty. Extensive experiments over multiple benchmarks demonstrate that our framework substantially alleviates the noisy problem and improves the performance of iterative preference optimization.
Abstract（参考訳）: 反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっているが、ループで得られるノイズの多い選好データが多すぎるため、まだパフォーマンスが急落している。この問題に対処するために、信頼性の高いフィードバックでLLMを自己進化させるために、 \textbf{U}ncertainty-enhanced \textbf{P}reference \textbf{O}ptimization (UPO) フレームワークを提案する。鍵となる考え方は、ペアワイド不確実性推定と司法的に信頼できるフィードバックサンプリングを行うことにより、現在の方針と報奨モデルから導かれるノイズの多い選好データを緩和することである。この目標を達成するために,ベイジアンニューラルネットワーク (BNN) にモンテカルロ (MC) のドロップアウトを組み込んだ推定器モデルを導入する。報酬スコアに基づいて生成した応答を直接フィルタリングする既存の手法と比較して、推定器はモデルの不確実性をペアワイズに焦点を合わせ、報酬モデルの確認バイアス問題を効果的に回避する。さらに、優先最適化の堅牢性を改善するための不確実性向上自己進化アルゴリズムを提案し、高い報酬と確実性の両方でLLMが応答を生成することを奨励する。複数のベンチマークに対する大規模な実験により、我々のフレームワークはノイズ問題を大幅に軽減し、反復的選好最適化の性能を向上することが示された。

関連論文リスト

Uncertainty Quantification for Large Language Model Reward Learning under Heterogeneous Human Feedback [8.538830579425147]
大規模言語(LLM)の整合に使用される推定モデルと統計的報酬モデルについて検討する。 LLMアライメントの重要な構成要素は、人間のフィードバックからの強化学習である。
論文参考訳（メタデータ） (2025-12-02T20:22:25Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文参考訳（メタデータ） (2024-10-09T17:58:12Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。 TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-31T05:37:01Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文参考訳（メタデータ） (2024-03-08T09:20:12Z)
Model Selection for Bayesian Autoencoders [25.619565817793422]
本稿では,オートエンコーダの出力と経験的データ分布との分散スライス-ワッサーシュタイン距離を最適化することを提案する。我々のBAEは、フレキシブルなディリクレ混合モデルを潜在空間に適合させることにより、生成モデルに変換する。我々は,教師なしの学習課題に対する膨大な実験的キャンペーンを質的かつ定量的に評価し,先行研究が重要となる小規模データ体制において,我々のアプローチが最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2021-06-11T08:55:00Z)
Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。このアプローチは多くの実装と最適化の課題をもたらします。提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文参考訳（メタデータ） (2021-03-18T14:26:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。