Fugu-MT 論文翻訳(概要): Geometric-Averaged Preference Optimization for Soft Preference Labels

論文の概要: Geometric-Averaged Preference Optimization for Soft Preference Labels

arxiv url: http://arxiv.org/abs/2409.06691v3
Date: Mon, 30 Dec 2024 11:05:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 16:16:53.293883
Title: Geometric-Averaged Preference Optimization for Soft Preference Labels
Title（参考訳）: ソフトな選好ラベルに対する幾何学的平均選好最適化
Authors: Hiroki Furuta, Kuang-Huei Lee, Shixiang Shane Gu, Yutaka Matsuo, Aleksandra Faust, Heiga Zen, Izzeddin Gur,
Abstract要約: LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
参考スコア（独自算出の注目度）: 78.2746007085333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many algorithms for aligning LLMs with human preferences assume that human preferences are binary and deterministic. However, human preferences can vary across individuals, and therefore should be represented distributionally. In this work, we introduce the distributional soft preference labels and improve Direct Preference Optimization (DPO) with a weighted geometric average of the LLM output likelihood in the loss function. This approach adjusts the scale of learning loss based on the soft labels such that the loss would approach zero when the responses are closer to equally preferred. This simple modification can be easily applied to any DPO-based methods and mitigate over-optimization and objective mismatch, which prior works suffer from. Our experiments simulate the soft preference labels with AI feedback from LLMs and demonstrate that geometric averaging consistently improves performance on standard benchmarks for alignment research. In particular, we observe more preferable responses than binary labels and significant improvements where modestly-confident labels are in the majority.
Abstract（参考訳）: LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。しかし、人間の好みは個人によって異なり、それゆえに分布的に表現されるべきである。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。このアプローチは、ソフトラベルに基づいて学習損失のスケールを調整し、応答が等しく好まれるときに損失がゼロに近づくようにする。この単純な修正は、どんなDPOベースの手法にも容易に適用でき、事前の作業に苦しむ過度な最適化と客観的なミスマッチを軽減することができる。我々の実験は、LLMからのAIフィードバックでソフトな嗜好ラベルをシミュレートし、幾何平均化がアライメント研究のための標準ベンチマークの性能を一貫して改善することを示した。特に、バイナリラベルよりもより望ましい応答と、適度に信頼されたラベルが多数を占める大幅な改善を観察する。

関連論文リスト

Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文参考訳（メタデータ） (2025-06-03T09:47:22Z)
Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデルを人間の好みに合わせる上での大きな課題は、分散シフトの問題である。 WDPO(Wasserstein DPO)とKLDPO(Kullback-Leibler DPO)という,分散的に堅牢な直接選好最適化アルゴリズムを新たに開発した。本実験は,WDPOとKLDPOが優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示すものである。
論文参考訳（メタデータ） (2025-02-04T02:03:19Z)
Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment [19.02679077706812]
大規模言語モデルと人間の嗜好データとの整合性について検討する。我々は、単純で効果的なアルゴリズムである直接選好最適化(Cal-DPO)を提案する。各種標準ベンチマーク実験の結果,Cal-DPOは市販の手法を著しく改善することが示された。
論文参考訳（メタデータ） (2024-12-19T04:31:56Z)
Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文参考訳（メタデータ） (2024-11-07T23:03:11Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文参考訳（メタデータ） (2024-05-29T21:29:44Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
$i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。 i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文参考訳（メタデータ） (2024-05-24T05:42:11Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。