論文の概要: Semantic-aware Wasserstein Policy Regularization for Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2602.01685v1
- Date: Mon, 02 Feb 2026 05:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.939247
- Title: Semantic-aware Wasserstein Policy Regularization for Large Language Model Alignment
- Title(参考訳): 大言語モデルアライメントのための意味認識ワッサースタインポリシー規則化
- Authors: Byeonghu Na, Hyungho Na, Yeongmin Kim, Suhyeon Jo, HeeSun Bae, Mina Kang, Il-Chul Moon,
- Abstract要約: エントロピー規則化ワッサースタイン距離に基づくRLHFフレームワークのセマンティックアウェア正規化を提案する。
提案手法はKLと$f$divergenceベースのベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 30.266966684932186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are commonly aligned with human preferences using reinforcement learning from human feedback (RLHF). In this method, LLM policies are generally optimized through reward maximization with Kullback-Leibler (KL) divergence regularization of the reference policy. However, KL and its $f$-divergence variants only compare token probabilities at identical indices, failing to capture semantic similarity. We propose Wasserstein Policy Regularization (WPR), a semantic-aware regularization for the RLHF framework based on the entropy-regularized Wasserstein distance, which incorporates the geometry of the token space. The dual formulation of the distance expresses the regularization as penalty terms applied to the reward via optimal dual variables, which yield a tractable objective compatible with standard RL algorithms. Empirically, our method outperforms KL- and $f$-divergence-based baselines, demonstrating the benefits of semantic-aware policy distances for alignment. Our code is available at https://github.com/aailab-kaist/WPR.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のフィードバックからの強化学習(RLHF)を用いて、人間の好みに合わせるのが一般的である。
この方法では、LLMポリシーは、基準ポリシーのKL(Kulback-Leibler)分散正規化による報酬の最大化により、一般的に最適化される。
しかし、KLと$f$-divergenceの変種は同じ指標でトークンの確率を比較するだけで、意味的類似性を捉えることができない。
本稿では,トークン空間の幾何学を取り入れたエントロピー規則化ワッサースタイン距離に基づく,RLHFフレームワークのセマンティック・アウェア・正規化であるワッサーシュタインポリシー正規化(WPR)を提案する。
距離の双対定式化は、与えられた報酬に最適な双対変数を通して適用されるペナルティ項として正規化を表現する。
提案手法はKL-および$f$$-divergenceベースのベースラインよりも優れており,アライメントのためのセマンティック・アウェア・ポリシー距離の利点を示す。
私たちのコードはhttps://github.com/aailab-kaist/WPR.comで公開されています。
関連論文リスト
- Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model [43.74350307533018]
我々は、未知の、制約のない複雑さの下で、嗜好に対するポリシーの整合性について研究する。
ニューラルネットワークとバッチデータに適した一階最適化を使用します。
論文 参考訳(メタデータ) (2025-12-26T08:22:41Z) - Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games [53.447182734351]
Reverse Kullback-Leibler (KL) 正則化の下で, サンプル効率の向上を実現するアルゴリズムを開発し, 解析する。
我々は,2プレイヤーゼロサムマトリクスゲームとマルコフゲームの両方について検討する:マトリックスゲームでは,楽観的なボーナス付きベストレスポンスサンプリングに基づくアルゴリズムOMGを提案し,アルゴリズムSOMGを用いてマルコフゲームに拡張する。
両アルゴリズムは、標準の$widetildemathcalO(sqrtT)に加えて、KL正規化強度$beta$と共に逆スケールする$T$の対数後悔を実現する。
論文 参考訳(メタデータ) (2025-10-15T01:00:54Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - What is the Alignment Objective of GRPO? [30.36318490634376]
本稿では,GRPOアルゴリズムの定常ポリシを特徴付けるためのフレームワークを提案する。
選好アグリゲーションの正確な形は、報酬選好モデルの定義方法とペナルティ関数から生じる。
二分問題に対する集合的選好の明示的な特徴付けとして,大小2の群に対して,大小2の群に対して,大小の群を限定する。
論文 参考訳(メタデータ) (2025-02-25T15:56:56Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
そこで本研究では,KLの発散に対する新しい推定器を提案し,その近似が厳密であることを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。