論文の概要: Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.18720v1
- Date: Sat, 24 May 2025 14:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.615823
- Title: Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization
- Title(参考訳): 優先度最適化のための最適輸送ベーストークン重み付け方式
- Authors: Meng Li, Guangda Huzhang, Haibo Zhang, Xiting Wang, Anxiang Zeng,
- Abstract要約: DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なフレームワークとして登場した。
既存の方法は応答における全てのトークンに等しい重要性を割り当て、人間はより意味のある部分に焦点を当てる。
直接textbfPreference textbfOptimization (OTPO) を強化するための textbfOptimal textbfTransport を用いたトークン重み付け方式を提案する。
- 参考スコア(独自算出の注目度): 17.801062522027266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as a promising framework for aligning Large Language Models (LLMs) with human preferences by directly optimizing the log-likelihood difference between chosen and rejected responses. However, existing methods assign equal importance to all tokens in the response, while humans focus on more meaningful parts. This leads to suboptimal preference optimization, as irrelevant or noisy tokens disproportionately influence DPO loss. To address this limitation, we propose \textbf{O}ptimal \textbf{T}ransport-based token weighting scheme for enhancing direct \textbf{P}reference \textbf{O}ptimization (OTPO). By emphasizing semantically meaningful token pairs and de-emphasizing less relevant ones, our method introduces a context-aware token weighting scheme that yields a more contrastive reward difference estimate. This adaptive weighting enhances reward stability, improves interpretability, and ensures that preference optimization focuses on meaningful differences between responses. Extensive experiments have validated OTPO's effectiveness in improving instruction-following ability across various settings\footnote{Code is available at https://github.com/Mimasss2/OTPO.}.
- Abstract(参考訳): 直接選好最適化(DPO)は、選択された応答と拒否された応答のログライクな差を直接最適化することによって、大規模言語モデル(LLM)と人間の嗜好を整合させる、有望なフレームワークとして登場した。
しかしながら、既存の手法は応答における全てのトークンに等しく重要度を割り当て、人間はより意味のある部分に焦点を当てる。
これは、DPO損失に不適切な、またはノイズの多いトークンが不均等に影響を及ぼすため、最適以下の選好最適化につながる。
この制限に対処するために、直接の \textbf{P} 参照 \textbf{O} 最適化(OTPO)を強化するために、 \textbf{O}ptimal \textbf{T}ransport ベースのトークン重み付け方式を提案する。
意味的に意味のあるトークンペアを強調し、あまり意味のないトークンを非強調することにより、より対照的な報酬差推定をもたらすコンテキスト対応トークン重み付け方式を導入する。
この適応重み付けは報酬の安定性を高め、解釈可能性を改善し、好みの最適化が応答間の有意義な差異に焦点を当てることを保証する。
広範な実験がOTPOの有効性を検証し、さまざまな設定にわたる命令フォロー機能を改善する。footnote{Codeはhttps://github.com/Mimasss2/OTPOで公開されている。
と。
関連論文リスト
- Token-Importance Guided Direct Preference Optimization [2.230951739798399]
本研究では,大規模言語モデルが人間の嗜好に沿った出力を生成することを保証するため,TI-DPO(Token-Importance Guided Direct Preference Optimization)を提案する。
実験の結果,TI-DPOは高い精度とより強力な生成多様性を達成し,より安定かつ計算効率の良い解を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:11:24Z) - ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning [14.034412856423529]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。
本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-05-25T11:33:08Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。