論文の概要: Token-Importance Guided Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.19653v1
- Date: Mon, 26 May 2025 08:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.268459
- Title: Token-Importance Guided Direct Preference Optimization
- Title(参考訳): Token-Importance Guided Direct Preference Optimization
- Authors: Yang Ning, Lin Hai, Liu Yibo, Tian Baoliang, Liu Guoqing, Zhang Haijun,
- Abstract要約: 本研究では,大規模言語モデルが人間の嗜好に沿った出力を生成することを保証するため,TI-DPO(Token-Importance Guided Direct Preference Optimization)を提案する。
実験の結果,TI-DPOは高い精度とより強力な生成多様性を達成し,より安定かつ計算効率の良い解を提供することがわかった。
- 参考スコア(独自算出の注目度): 2.230951739798399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that large language models (LLMs) generate outputs aligned with human preferences is important for safe and effective AI interactions. While Direct Preference Optimization (DPO) employs an implicit reward function to optimize the policy model, however, it and its related variants overlook the differential importance of individual tokens and are sensitive to judgment noise in preference datasets during generation. Although recent methods attempt to assess the important weight of tokens via probability prediction or simplistic weighting schemes, these evaluation methods are prone to biases and still cannot fully address these issues. To solve this problem, we propose the Token-Importance Guided Direct Preference Optimization (TI-DPO), which introduces two key innovations: the gradient-based token-importance weights that dynamically prioritize critical tokens, and a triple loss that explicitly guides model outputs to approach human-preferred responses and stay away from non-preferred responses. Experimental results show that TI-DPO achieves higher accuracy and stronger generative diversity, providing more stable and computationally efficient solutions compared with DPO and other RLHF methods.
- Abstract(参考訳): 大規模言語モデル(LLM)が人間の好みに沿った出力を生成することを保証することは、安全で効果的なAIインタラクションにとって重要である。
直接選好最適化(DPO)はポリシーモデルを最適化するために暗黙の報奨関数を用いるが、それと関連した変種は個々のトークンの差分の重要性を軽視し、生成中の選好データセットの判断ノイズに敏感である。
近年の手法では、トークンの重要な重み付けを確率予測や簡易重み付け方式で評価する手法が試みられているが、これらの評価手法は偏りがあり、これらの問題に完全に対処することができない。
そこで本研究では,重要なトークンを動的に優先順位付けする勾配ベースのトークン-インポータンス重みと,モデル出力を明示的にガイドし,人為的な応答に近づき,非推奨応答から遠ざかるトリプル損失という,2つの重要なイノベーションを紹介する。
実験結果から, TI-DPOはDPOや他のRLHF法と比較して, より精度が高く, より強力な生成多様性を達成し, より安定かつ計算効率の良い解を提供することが示された。
関連論文リスト
- TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。