論文の概要: Token-weighted Direct Preference Optimization with Attention
- arxiv url: http://arxiv.org/abs/2605.21883v2
- Date: Tue, 26 May 2026 03:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.879161
- Title: Token-weighted Direct Preference Optimization with Attention
- Title(参考訳): 留意点を考慮したトークン重み付き直接選好最適化
- Authors: Chengyu Huang, Zhuohang Li, Sheng-Yen Chou, Claire Cardie,
- Abstract要約: 本稿ではトークン重み付きRLとアテンションPOに基づく新しいトレーニング目標を提案する。
AttentionPO は LLM 自体からの注意を使ってトークンの重みを推定する。
実験の結果,アテンションPOはAlpacaEval,MT-Bench,ArenaHardの性能を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 17.569206072311157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) aligns Large Language Models with human preferences without the need for a separate reward model. However, DPO treats all tokens in responses equally, neglecting the differing importance of individual tokens. Existing token-level PO methods compute the token weights using either token-position-based heuristic functions or probability estimates given by a separately trained model, which lacks robustness and incurs extra training cost. In contrast, we propose Token-weighted DPO (TwDPO) -- a novel training objective grounded on token-weighted RL -- and AttentionPO -- an instantiation of TwDPO that uses attention from the LLM itself to estimate token weights. AttentionPO prompts the LLM to serve as a pairwise judge and check where the model attends when comparing the responses. This design makes AttentionPO content-aware, adjusting weights based on response content, and efficient, incurring only two extra forward passes per example. Experiment results show that AttentionPO significantly improves performance on AlpacaEval, MT-Bench, and ArenaHard, surpassing existing Preference Optimization methods.
- Abstract(参考訳): 直接選好最適化(DPO)は、大きな言語モデルと人間の選好を、別の報奨モデルなしで調整する。
しかし、DPOは反応における全てのトークンを等しく扱い、個々のトークンの異なる重要性を無視している。
既存のトークンレベルのPOメソッドは、トークンポジションベースのヒューリスティック関数または個別に訓練されたモデルによって与えられる確率推定を用いてトークン重量を計算する。
対照的に,トークン重み付きRLに基づく新たなトレーニング目標であるトークン重み付きDPO (TwDPO) と,トークン重み推定にLLM自体からの注意を用いたTwDPOのインスタンス化を提案する。
AttentionPOはLLMにペアワイズ・ジャッジとして機能するよう促し、レスポンスを比較する際にモデルがどこに出席しているかをチェックする。
この設計により、AttentionPOコンテンツに気付き、応答内容に基づいて重みを調整することができ、効率が良く、例ごとに2つの追加のフォワードパスしか発生しない。
実験結果から,AlpacaEval,MT-Bench,ArenaHardのアテンションPOは既存の優先度最適化手法をはるかに上回る性能を示した。
関連論文リスト
- On the Role of Preference Variance in Preference Optimization [55.364953481473286]
直接選好最適化(DPO)トレーニングの有効性に対する選好分散(PVar)の影響について検討する。
PVarより高いプロンプトは、ランダムに選択されたプロンプトまたは低いPVarより優れたプロンプトを示す。
論文 参考訳(メタデータ) (2025-10-14T22:34:52Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。