論文の概要: Uncovering Cross-Objective Interference in Multi-Objective Alignment
- arxiv url: http://arxiv.org/abs/2602.06869v1
- Date: Fri, 06 Feb 2026 16:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.496303
- Title: Uncovering Cross-Objective Interference in Multi-Objective Alignment
- Title(参考訳): 多目的アライメントにおけるクロスオブジェクト干渉の発見
- Authors: Yining Lu, Meng Jiang,
- Abstract要約: 大規模言語モデル(LLM)の多目的アライメントにおける永続的障害モードについて検討し、学習は目的のサブセットのみの性能を向上させると同時に、他のモデルの劣化を引き起こす。
- 参考スコア(独自算出の注目度): 24.025539867037335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a persistent failure mode in multi-objective alignment for large language models (LLMs): training improves performance on only a subset of objectives while causing others to degrade. We formalize this phenomenon as cross-objective interference and conduct the first systematic study across classic scalarization algorithms, showing that interference is pervasive and exhibits strong model dependence. To explain this phenomenon, we derive a local covariance law showing that an objective improves at first order when its reward exhibits positive covariance with the scalarized score. We extend this analysis to clipped surrogate objectives used in modern alignment, demonstrating that the covariance law remains valid under mild conditions despite clipping. Building on this analysis, we propose Covariance Targeted Weight Adaptation (CTWA), a plug-and-play method that maintains positive covariance between objective rewards and the training signal to effectively mitigate cross-objective interference. Finally, we complement these local improvement conditions with a global convergence analysis under the Polyak--Łojasiewicz condition, establishing when non-convex scalarized optimization achieves global convergence and how cross-objective interference depends on specific model geometric properties.
- Abstract(参考訳): 大規模言語モデル(LLM)の多目的アライメントにおける永続的障害モードについて検討し、学習は目的のサブセットのみの性能を向上させると同時に、他のモデルの劣化を引き起こす。
我々は、この現象をクロスオブジェクト干渉として形式化し、古典的なスカラー化アルゴリズムにまたがる最初の体系的な研究を行い、干渉が広範に広まり、強いモデル依存を示すことを示す。
この現象を説明するために、我々は、その報酬がスカラー化スコアと正の共分散を示すとき、目的が一階に改善されることを示す局所共分散法則を導出する。
この分析は、現代のアライメントで用いられるクリッピングされたサロゲート目的に拡張され、クリッピングにもかかわらず、穏やかな条件下では共分散法則が有効であることを示す。
この分析に基づいて,目標値と学習信号との正の共分散を保ち,対物干渉を効果的に軽減するプラグイン・アンド・プレイ法であるCTWAを提案する。
最後に、これらの局所改善条件をポリアック-ジョジャシエヴィチ条件の下での大域収束解析で補完し、非凸スキャラライズされた最適化が大域収束を達成するときと、クロスオブジェクト干渉が特定のモデル幾何学的性質にどのように依存するかを確立する。
関連論文リスト
- SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Negative as Positive: Enhancing Out-of-distribution Generalization for Graph Contrastive Learning [60.61079931266331]
グラフコントラスト学習(GCL)において、最も意味論的に類似したドメイン間負対を正として扱う新たな戦略であるNegative as Positiveを提案する。
実験結果から,GCLのOOD一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2024-05-25T13:29:31Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Tackling the Objective Inconsistency Problem in Heterogeneous Federated
Optimization [93.78811018928583]
本稿では、フェデレートされた異種最適化アルゴリズムの収束性を分析するためのフレームワークを提供する。
我々は,高速な誤差収束を保ちながら,客観的な矛盾を解消する正規化平均化手法であるFedNovaを提案する。
論文 参考訳(メタデータ) (2020-07-15T05:01:23Z) - Self-adaptive Re-weighted Adversarial Domain Adaptation [12.73753413032972]
自己適応型再重み付き対向ドメイン適応手法を提案する。
条件分布の観点からドメインアライメントを強化する。
実証的な証拠は、提案されたモデルが標準的なドメイン適応データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-05-30T08:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。