Fugu-MT 論文翻訳(概要): Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective

論文の概要: Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective

arxiv url: http://arxiv.org/abs/2502.14340v1
Date: Thu, 20 Feb 2025 07:53:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.561768
Title: Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective
Title（参考訳）: 早期Tokensのコントリビュート: 時間的劣化の視点から直接予測最適化を学ぶ
Authors: Ruichen Shao, Bei Li, Gangao Liu, Yang Chen, Xiang Zhou, Jingang Wang, Xunliang Cai, Peng Li,
Abstract要約: ガンマパラメータによって制御される時間減衰係数を組み込んだ改良された選好最適化法を提案する。我々のアプローチは、過度な適合を減らし、人間の好みの進化に反応し続けます。
参考スコア（独自算出の注目度）: 22.248134630764497
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Direct Preference Optimization (DPO) has gained attention as an efficient alternative to reinforcement learning from human feedback (RLHF) for aligning large language models (LLMs) with human preferences. Despite its advantages, DPO suffers from a length bias, generating responses longer than those from the reference model. Existing solutions like SimPO and SamPO address this issue but uniformly treat the contribution of rewards across sequences, overlooking temporal dynamics. To this end, we propose an enhanced preference optimization method that incorporates a temporal decay factor controlled by a gamma parameter. This dynamic weighting mechanism adjusts the influence of each reward based on its position in the sequence, prioritizing earlier tokens that are more critical for alignment. By adaptively focusing on more relevant feedback, our approach mitigates overfitting to less pertinent data and remains responsive to evolving human preferences. Experimental results on several benchmarks show that our approach consistently outperforms vanilla DPO by 5.9-8.8 points on AlpacaEval 2 and 3.3-9.7 points on Arena-Hard across different model architectures and sizes. Furthermore, additional experiments on mathematical and reasoning benchmarks (MMLU, GSM8K, and MATH) confirm that our method enhances performance without compromising general capabilities. Our codebase would be available at \url{https://github.com/LotuSrc/D2PO}.
Abstract（参考訳）: 直接選好最適化(DPO)は,人間からのフィードバック(RLHF)からの強化学習の代替として,大規模言語モデル(LLM)と人間の嗜好を整合させる手段として注目されている。その利点にもかかわらず、DPOは長さバイアスに悩まされ、参照モデルよりも長い応答を生成する。 SimPOやSamPOのような既存のソリューションはこの問題に対処するが、時間的ダイナミクスを見渡すことで、シーケンス全体にわたる報酬の貢献を均一に扱う。そこで本稿では,ガンマパラメータによって制御される時間減衰係数を組み込んだ優先最適化手法を提案する。この動的重み付け機構は、配列内の位置に基づいて各報酬の影響を調整し、アライメントにおいてより重要な以前のトークンを優先順位付けする。より関連するフィードバックに適応的にフォーカスすることで、我々のアプローチは、より少ない関連するデータへの過度な適合を軽減し、進化する人間の嗜好に反応し続けます。いくつかのベンチマーク実験の結果、我々のアプローチは、AlpacaEval 2で5.9-8.8ポイント、Arena-Hardで3.3-9.7ポイント、異なるモデルアーキテクチャとサイズで一貫してバニラDPOを上回ります。さらに,数式および推論ベンチマーク(MMLU, GSM8K, MATH)のさらなる実験により,本手法が汎用性を損なうことなく性能を向上させることを確認した。コードベースは \url{https://github.com/LotuSrc/D2PO} で利用可能です。

関連論文リスト

ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning [14.034412856423529]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
論文参考訳（メタデータ） (2025-05-25T11:33:08Z)
Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization [17.801062522027266]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なフレームワークとして登場した。既存の方法は応答における全てのトークンに等しい重要性を割り当て、人間はより意味のある部分に焦点を当てる。直接textbfPreference textbfOptimization (OTPO) を強化するための textbfOptimal textbfTransport を用いたトークン重み付け方式を提案する。
論文参考訳（メタデータ） (2025-05-24T14:44:15Z)
Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-03T00:36:31Z)
AlphaPO - Reward shape matters for LLM alignment [8.688476316386176]
textbfAlphaPOは、標準的なログ報酬以外の報酬関数の形状を変えるのに役立つ新しいDAAである。最高のパフォーマンスを持つDAAの1つであるSimPOと比較して、AlphaPOはアライメント性能が7%から10%向上した。
論文参考訳（メタデータ） (2025-01-07T15:46:42Z)
Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T18:51:01Z)
Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。 OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文参考訳（メタデータ） (2024-10-06T03:49:28Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文参考訳（メタデータ） (2024-06-16T14:24:30Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。 RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文参考訳（メタデータ） (2024-03-28T06:03:47Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。