論文の概要: Latent Adversarial Regularization for Offline Preference Optimization
- arxiv url: http://arxiv.org/abs/2601.22083v2
- Date: Mon, 02 Feb 2026 07:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.798342
- Title: Latent Adversarial Regularization for Offline Preference Optimization
- Title(参考訳): オフライン選好最適化のための潜在逆正則化
- Authors: Enyi Jiang, Yibo Jacky Zhang, Yinglun Xu, Andreas Haupt, Nancy Amato, Sanmi Koyejo,
- Abstract要約: 本稿では,ポリシーモデルの内部表現と参照モデルとの相違を罰し,潜在空間の正則化を実現するGANPOを紹介する。
複数のモデルアーキテクチャとタスクにわたる実験は、潜在空間の正規化から一貫した改善を示している。
- 参考スコア(独自算出の注目度): 21.271580780278473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from human feedback typically relies on preference optimization that constrains policy updates through token-level regularization. However, preference optimization for language models is particularly challenging because token-space similarity does not imply semantic or behavioral similarity. To address this challenge, we leverage latent-space regularization for language model preference optimization. We introduce GANPO, which achieves latent-space regularization by penalizing divergence between the internal representations of a policy model and a reference model. Given that latent representations are not associated with explicit probability densities, we adopt an adversarial approach inspired by GANs to minimize latent-space divergence. We integrate GANPO as a regularizer into existing offline preference optimization objectives. Experiments across multiple model architectures and tasks show consistent improvements from latent-space regularization. Further, by comparing GANPO-induced inferential biases with those from token-level regularization, we find that GANPO provides more robust structural feedback under distributional shift and noise while maintaining comparable downstream performance with minor computational overhead.
- Abstract(参考訳): 人間のフィードバックから学ぶことは、通常、トークンレベルの正規化を通じてポリシー更新を制約する優先最適化に依存する。
しかし、トークン空間の類似性は意味的・行動的類似性を含まないため、言語モデルの好みの最適化は特に困難である。
この課題に対処するために、言語モデルの優先度最適化に潜在空間正規化を利用する。
本稿では,ポリシーモデルの内部表現と参照モデルとの相違を罰し,潜在空間の正則化を実現するGANPOを紹介する。
潜在表現が明示的な確率密度とは無関係であることを考えると、我々は潜在空間の発散を最小限に抑えるために、GANにインスパイアされた敵対的アプローチを採用する。
我々は、GANPOを正規化ツールとして既存のオフライン優先最適化の目的に統合する。
複数のモデルアーキテクチャとタスクにわたる実験は、潜在空間の正規化から一貫した改善を示している。
さらに,GANPOによる推論バイアスとトークンレベルの正規化のバイアスを比較することで,GANPOは分散シフトやノイズの下でより堅牢な構造フィードバックを提供すると同時に,計算オーバーヘッドの少ない下流性能を維持していることがわかった。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。
本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T12:57:39Z) - Transducer Consistency Regularization for Speech to Text Applications [4.510630624936377]
本稿では,トランスデューサモデルの整合正則化手法であるTransducer Consistency Regularization (TCR)を提案する。
作業確率を利用してトランスデューサ出力分布に異なる重みを与えるので、オラクルアライメントに近いアライメントのみがモデル学習に寄与する。
提案手法は他の整合正規化実装よりも優れていることを示すとともに,textscLibrispeechデータセットの強いベースラインと比較して,単語誤り率(WER)を4.3%削減できることを示した。
論文 参考訳(メタデータ) (2024-10-09T23:53:13Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Generalized Preference Optimization: A Unified Approach to Offline Alignment [54.97015778517253]
本稿では,一般的な凸関数のクラスによってパラメータ化されるオフライン損失の族である一般化された選好最適化(GPO)を提案する。
GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含む、優先最適化に関する統一的なビューを可能にする。
本研究は,新たなアルゴリズムツールキットと経験的洞察を実践者のアライメントに提示する。
論文 参考訳(メタデータ) (2024-02-08T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。