論文の概要: TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching
- arxiv url: http://arxiv.org/abs/2605.12288v2
- Date: Thu, 14 May 2026 15:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 18:18:46.740803
- Title: TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching
- Title(参考訳): TokenRatio: Ratio Matchingによる原則的なToken-Level Preference Optimization
- Authors: Truong Nguyen, Tien-Phat Nguyen, Linh Ngo Van, Duy Minh Ho Nguyen, Khoa D. Doan, Trung Le,
- Abstract要約: 標準的なシーケンスレベルのペアワイズ比較のみを用いてトークンレベルの最適性を回復する方法を示す。
本稿では,軽量な状態ベースラインを明示的に学習するTBPO-Qと,高次正規化によりベースラインを除去するTBPO-Aの2点を紹介する。
- 参考スコア(独自算出の注目度): 20.353416189523006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) is a widely used RL-free method for aligning language models from pairwise preferences, but it models preferences over full sequences even though generation is driven by per-token decisions. Existing token-level extensions typically decompose a sequence-level Bradley-Terry objective across timesteps, leaving per-prefix (state-wise) optimality implicit. We study how to recover token-level preference optimality using only standard sequence-level pairwise comparisons. We introduce Token-level Bregman Preference Optimization (TBPO), which posits a token-level Bradley-Terry preference model over next-token actions conditioned on the prefix, and derive a Bregman-divergence density-ratio matching objective that generalizes the logistic/DPO loss while preserving the optimal policy induced by the token-level model and maintaining DPO-like simplicity. We introduce two instantiations: TBPO-Q, which explicitly learns a lightweight state baseline, and TBPO-A, which removes the baseline through advantage normalization. Across instruction following, helpfulness/harmlessness, and summarization benchmarks, TBPO improves alignment quality and training stability and increases output diversity relative to strong sequence-level and token-level baselines.
- Abstract(参考訳): 直接選好最適化(DPO)は言語モデルをペアの選好から整列するためのRLフリーな手法として広く用いられているが、生成はトーケン毎の決定によって駆動されるにもかかわらず、全シーケンスよりも選好をモデル化する。
既存のトークンレベルの拡張は通常、時間ステップにわたってシーケンスレベルのBradley-Terry目的を分解し、前置詞ごとの最適性を暗黙的に残す。
標準的なシーケンスレベルのペアワイズ比較のみを用いてトークンレベルの選好最適性を回復する方法について検討する。
本稿では,トークンレベルのBregman Preference Optimization(TBPO)を紹介し,トークンレベルのBradley-Terry選好モデルをプレフィックス上に条件付きで設定した次トーケン動作に対して提案し,トークンレベルのモデルによって誘導される最適ポリシを保ちつつ,ロジスティック/DPO損失を一般化するBregman-Diversergence density-ratioマッチング目標を導出する。
本稿では,軽量な状態ベースラインを明示的に学習するTBPO-Qと,高次正規化によりベースラインを除去するTBPO-Aの2点を紹介する。
TBPOは、命令、有用性/無害性、および要約ベンチマーク全体にわたって、アライメント品質とトレーニング安定性を改善し、強いシーケンスレベルとトークンレベルのベースラインに対する出力の多様性を向上させる。
関連論文リスト
- Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO [70.38763678943648]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデルにおける推論とコード生成を改善するための中心的なパラダイムとなっている。
標準的なGRPOはシーケンスアグリゲーションを使用し、最近の研究はトークンアグリゲーションをより良い代替手段として提唱している。
トークンアグリゲーションは符号長結合を導入し、シーケンスアグリゲーションは暗黙的にダウンウェイトを延長する。
論文 参考訳(メタデータ) (2026-04-14T09:48:46Z) - wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment [48.487557157323664]
実際には、好みのデータはしばしばうるさい。
既存のDPOの頑健な派生型は、主に一様の客観的な修正や大域的な再重み付けに依存している。
目的の介入によって異なるノイズタイプに対処することで、ロバストな選好アライメントの利点が示される。
論文 参考訳(メタデータ) (2026-03-07T13:30:53Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。