論文の概要: Token-Importance Guided Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.19653v1
- Date: Mon, 26 May 2025 08:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.268459
- Title: Token-Importance Guided Direct Preference Optimization
- Title(参考訳): Token-Importance Guided Direct Preference Optimization
- Authors: Yang Ning, Lin Hai, Liu Yibo, Tian Baoliang, Liu Guoqing, Zhang Haijun,
- Abstract要約: 本研究では,大規模言語モデルが人間の嗜好に沿った出力を生成することを保証するため,TI-DPO(Token-Importance Guided Direct Preference Optimization)を提案する。
実験の結果,TI-DPOは高い精度とより強力な生成多様性を達成し,より安定かつ計算効率の良い解を提供することがわかった。
- 参考スコア(独自算出の注目度): 2.230951739798399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that large language models (LLMs) generate outputs aligned with human preferences is important for safe and effective AI interactions. While Direct Preference Optimization (DPO) employs an implicit reward function to optimize the policy model, however, it and its related variants overlook the differential importance of individual tokens and are sensitive to judgment noise in preference datasets during generation. Although recent methods attempt to assess the important weight of tokens via probability prediction or simplistic weighting schemes, these evaluation methods are prone to biases and still cannot fully address these issues. To solve this problem, we propose the Token-Importance Guided Direct Preference Optimization (TI-DPO), which introduces two key innovations: the gradient-based token-importance weights that dynamically prioritize critical tokens, and a triple loss that explicitly guides model outputs to approach human-preferred responses and stay away from non-preferred responses. Experimental results show that TI-DPO achieves higher accuracy and stronger generative diversity, providing more stable and computationally efficient solutions compared with DPO and other RLHF methods.
- Abstract(参考訳): 大規模言語モデル(LLM)が人間の好みに沿った出力を生成することを保証することは、安全で効果的なAIインタラクションにとって重要である。
直接選好最適化(DPO)はポリシーモデルを最適化するために暗黙の報奨関数を用いるが、それと関連した変種は個々のトークンの差分の重要性を軽視し、生成中の選好データセットの判断ノイズに敏感である。
近年の手法では、トークンの重要な重み付けを確率予測や簡易重み付け方式で評価する手法が試みられているが、これらの評価手法は偏りがあり、これらの問題に完全に対処することができない。
そこで本研究では,重要なトークンを動的に優先順位付けする勾配ベースのトークン-インポータンス重みと,モデル出力を明示的にガイドし,人為的な応答に近づき,非推奨応答から遠ざかるトリプル損失という,2つの重要なイノベーションを紹介する。
実験結果から, TI-DPOはDPOや他のRLHF法と比較して, より精度が高く, より強力な生成多様性を達成し, より安定かつ計算効率の良い解を提供することが示された。
関連論文リスト
- ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization [48.50761200321113]
大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。
補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-10T11:54:22Z) - Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling [13.917799959981185]
RLHF(Reinforcement Learning from Human Feedback)の代替として、DAA(Direct Alignment Algorithms)が登場した。
これらの手法は、モデルが基準ポリシーから逸脱する過度な最適化の影響を受けやすく、トレーニングが進むにつれて性能が低下する。
本稿では,オフラインDAAの過度最適化問題を軽減するために,新しい重要サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T10:45:26Z) - Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization [17.801062522027266]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なフレームワークとして登場した。
既存の方法は応答における全てのトークンに等しい重要性を割り当て、人間はより意味のある部分に焦点を当てる。
直接textbfPreference textbfOptimization (OTPO) を強化するための textbfOptimal textbfTransport を用いたトークン重み付け方式を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:44:15Z) - Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF [67.48004037550064]
本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。
提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。
実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T04:22:53Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。