論文の概要: OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment
- arxiv url: http://arxiv.org/abs/2509.24610v2
- Date: Tue, 30 Sep 2025 02:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.88344
- Title: OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment
- Title(参考訳): OrthAlign:非干渉多目的アライメントのための直交部分空間分解
- Authors: Liang Lin, Zhihao Xu, Junhao Dong, Jian Zhao, Yuchen Yuan, Guibin Zhang, Miao Yu, Yiming Zhang, Zhengtao Yao, Huahui Yi, Dongrui Liu, Xinfeng Li, Kun Wang,
- Abstract要約: 大規模言語モデル(LLM)のアライメントは、複数の人間の好みに対処する際に重要なジレンマに直面します。
我々は、優先順位調整における勾配レベルの対立を解決する革新的なアプローチであるOrthAlignを提案する。
我々はOrthAlignが多重目的アライメント後の34.61%から50.89%の最大単一参照改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 61.02595549125661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) alignment faces a critical dilemma when addressing multiple human preferences: improvements in one dimension frequently come at the expense of others, creating unavoidable trade-offs between competing objectives like helpfulness and harmlessness. While prior work mainly focuses on constraint-based optimization algorithms and data selection strategies to mitigate conflicts, these approaches overlook the fundamental issue of resolving conflicts directly at the parameter level. In this paper, we present OrthAlign, an innovative approach that pioneers a new paradigm by leveraging orthogonal subspace decomposition to fundamentally resolve gradient-level conflicts in multi-objective preference alignment. OrthAlign strategically decomposes parameter update spaces into orthogonal subspaces, ensuring that optimization toward different preferences occurs in mathematically non-interfering directions. Building upon this, we provide theoretical guarantees demonstrating that when parameter increments satisfy both orthogonal subspace constraints and spectral norm bounds, the resulting updates exhibit linear Lipschitz growth rather than exponential instability, ensuring stable convergence across all preference dimensions. Extensive experiments show that: I. OrthAlign achieves maximum single-preference improvements ranging from 34.61% to 50.89% after multiple-objective alignment across helpful, harmless, and truthful dimensions. II. With an average overall reward improvement of 13.96%.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントは、複数の人間の好みに対処する上で、重要なジレンマに直面します。
従来の研究は主にコンフリクトを緩和するための制約ベースの最適化アルゴリズムとデータ選択戦略に重点を置いていたが、これらのアプローチはパラメータレベルで直接コンフリクトを解決するという根本的な問題を見逃している。
本稿では、直交部分空間分解を利用して、多目的優先アライメントにおける勾配レベルの競合を根本的に解消する、新しいパラダイムを開拓する革新的アプローチであるOrthAlignを提案する。
OrthAlign はパラメータ更新空間を直交部分空間に戦略的に分解し、数学的に非干渉的な方向に異なる選好に対する最適化が生じることを保証している。
これに基づいて、パラメータインクリメントが直交部分空間制約とスペクトルノルム境界の両方を満たすとき、結果として得られる更新は指数的不安定性よりも線形リプシッツ成長を示し、すべての選好次元にわたって安定した収束を保証することを示す理論的保証を提供する。
I. OrthAlign は34.61% から 50.89% まで、多目的アライメントの後に、有益で無害で真理な次元で最大の単一参照改善を達成している。
II。
報酬の平均は13.96%だった。
関連論文リスト
- Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Multi-start Optimization Method via Scalarization based on Target Point-based Tchebycheff Distance for Multi-objective Optimization [2.9248680865344348]
多目的最適化(multi-jective optimization)は、競合する目的間のトレードオフのバランスをとるための、科学的および工業的応用において重要である。
NSGA-IIIやMOEA/Dのような最先端の手法は、多くの目的に対処できるが、カバレッジの問題には対処できない。
これらの課題に対処する新しいマルチスタート最適化手法を提案する。
論文 参考訳(メタデータ) (2025-05-01T02:27:25Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Smoothing the Edges: Smooth Optimization for Sparse Regularization using Hadamard Overparametrization [10.009748368458409]
本稿では、(構造化された)空間性に対して、明示的に正規化された目的を円滑に最適化するためのフレームワークを提案する。
提案手法は,完全微分可能近似自由最適化を実現し,深層学習におけるユビキタス勾配降下パラダイムと互換性がある。
論文 参考訳(メタデータ) (2023-07-07T13:06:12Z) - Primal-Dual Sequential Subspace Optimization for Saddle-point Problems [3.9582154141918964]
大規模サドル点問題に対する逐次部分空間最適化手法を提案する。
低次元部分空間における補助的サドル点問題(英語版)を、原始整数双対変数上の一階情報から導かれる方向によって解決する。
実験結果は、一般的な一階法と比較して、かなり良い収束性を示した。
論文 参考訳(メタデータ) (2020-08-20T18:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。