論文の概要: Tangent Space Fine-Tuning for Directional Preference Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01128v1
- Date: Sun, 01 Feb 2026 09:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.611475
- Title: Tangent Space Fine-Tuning for Directional Preference Alignment in Large Language Models
- Title(参考訳): 大規模言語モデルにおける方向優先アライメントのためのTangent Space Fine-Tuning
- Authors: Mete Erdogan,
- Abstract要約: 私たちのゴールは、原則と制御可能なアライメントを通じて、大きな言語モデルで人間の好みの次元をバランスさせることです。
本稿では、局所線形な状態下でDPOを実行し、オブジェクトごとの更新方向を学習するTangent-Space Direct Preference Optimization (TS-DPO)を提案する。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal is to enable large language models (LLMs) to balance multiple human preference dimensions; such as helpfulness, safety, and verbosity, through principled and controllable alignment. Existing preference optimization methods, including Direct Preference Optimization (DPO), collapse feedback into a single scalar reward, fixing one balance among objectives and preventing traversal of the Pareto front. Recent work by Ortiz-Jimenez et al. (2023) showed that fine-tuning can be viewed in a model's tangent space, where linearized updates act as additive vectors that can be composed to jointly perform well on multiple tasks. Building on this formulation, we extend this idea to preference alignment and propose Tangent-Space Direct Preference Optimization (TS-DPO), which performs DPO within this locally linear regime to learn per-objective update directions. These directions can be linearly combined at inference to generate user-specified behaviors without additional optimization. Evaluated on the helpfulness-verbosity trade-off using the HelpSteer and UltraFeedback datasets, TS-DPO achieves broader Pareto-optimal coverage and smoother preference control than scalarized DPO. Canonical Correlation Analysis (CCA) further shows that tangent-space training amplifies canonical directions aligned with distinct preferences, improving disentanglement.
- Abstract(参考訳): 我々のゴールは、多言語モデル(LLM)が、原則的かつ制御可能なアライメントを通じて、有用性、安全性、冗長性といった、複数の人間の好みの次元をバランスさせることです。
直接選好最適化(DPO)を含む既存の選好最適化手法では、単一のスカラー報酬にフィードバックを分解し、目標間のバランスを1つ固定し、パレートフロントのトラバースを防止する。
Ortiz-Jimenez et al (2023) による最近の研究は、細調整をモデルの接空間で見ることができることを示した。
この定式化に基づいて、このアイデアを好みのアライメントに拡張し、局所線形状態においてDPOを実行し、対象ごとの更新方向を学習するTangent-Space Direct Preference Optimization (TS-DPO)を提案する。
これらの方向は推論時に線形に組み合わせて、追加の最適化なしにユーザ指定の振る舞いを生成することができる。
TS-DPOは、HelpSteerとUltraFeedbackのデータセットを用いて、有用性とバービシティのトレードオフを評価し、スカラー化されたDPOよりもより広いパレート最適カバレッジとスムーズな選好制御を実現する。
標準相関解析 (CCA) により, 接地空間のトレーニングは, 異なる好みに整合した正準方向を増幅し, 絡み合いを改善した。
関連論文リスト
- Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。