論文の概要: Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior
- arxiv url: http://arxiv.org/abs/2511.02022v1
- Date: Mon, 03 Nov 2025 19:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.666052
- Title: Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior
- Title(参考訳): 創発的ミスアライメント行動における共有パラメータ部分空間とクロスタスク線形性
- Authors: Daniel Aarao Reis Arturi, Eric Zhang, Andrew Ansah, Kevin Zhu, Ashwinee Panda, Aishwarya Balwani,
- Abstract要約: 狭義の有害データセットを微調整した後に,大規模言語モデルが広範囲に不整合な振る舞いを発達させることができることを示す。
実験結果から,EMは異なる狭いタスクから発生し,同じパラメータの共有方向を見つけることが示唆された。
- 参考スコア(独自算出の注目度): 9.202404525860189
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work has discovered that large language models can develop broadly misaligned behaviors after being fine-tuned on narrowly harmful datasets, a phenomenon known as emergent misalignment (EM). However, the fundamental mechanisms enabling such harmful generalization across disparate domains remain poorly understood. In this work, we adopt a geometric perspective to study EM and demonstrate that it exhibits a fundamental cross-task linear structure in how harmful behavior is encoded across different datasets. Specifically, we find a strong convergence in EM parameters across tasks, with the fine-tuned weight updates showing relatively high cosine similarities, as well as shared lower-dimensional subspaces as measured by their principal angles and projection overlaps. Furthermore, we also show functional equivalence via linear mode connectivity, wherein interpolated models across narrow misalignment tasks maintain coherent, broadly misaligned behavior. Our results indicate that EM arises from different narrow tasks discovering the same set of shared parameter directions, suggesting that harmful behaviors may be organized into specific, predictable regions of the weight landscape. By revealing this fundamental connection between parametric geometry and behavioral outcomes, we hope our work catalyzes further research on parameter space interpretability and weight-based interventions.
- Abstract(参考訳): 近年の研究では、大きな言語モデルが、狭い有害なデータセットを微調整した後に、広範囲に不整合な振る舞いを発達させることが判明している。
しかし、そのような有害な一般化を可能にする基本的なメカニズムは、異なる領域にまたがって理解されていない。
本研究では,EM研究に幾何学的視点を適用し,異なるデータセット間で有害な振る舞いをエンコードする方法の基本的なクロスタスク線形構造を示すことを示す。
具体的には,タスク間でのEMパラメータの収束が強く,相対的にコサイン類似度の高い微調整の重み付けや,主角や投影重なりによって測定された低次元部分空間の共有化が期待できる。
さらに、線形モード接続による関数同値性も示し、狭いミスアライメントタスクにまたがる補間モデルでは、コヒーレントで広範囲に不整合な動作が維持される。
この結果から, 有害な行動は, 重量景観の特定の, 予測可能な領域に整理される可能性が示唆された。
パラメトリックな幾何学と行動結果の基本的な関係を明らかにすることで、パラメータ空間の解釈可能性と重みに基づく介入に関するさらなる研究を触媒することを期待します。
関連論文リスト
- VIKING: Deep variational inference with stochastic projections [48.946143517489496]
変分平均場近似は、現代の過度にパラメータ化されたディープニューラルネットワークと競合する傾向がある。
パラメータ空間の2つの独立線型部分空間を考える単純な変分族を提案する。
これにより、オーバーパラメトリゼーションを反映した、完全に相関した近似後部を構築することができる。
論文 参考訳(メタデータ) (2025-10-27T15:38:35Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Beyond Flatland: A Geometric Take on Matching Methods for Treatment Effect Estimation [6.4527669089403155]
本稿では,既存の因果機構によって誘導される内在データ幾何を考慮した治療効果を推定するマッチング手法を提案する。
我々は、GeoMatchingがより効果的に治療効果を推定できることを示す、合成および実世界のシナリオにおける理論的洞察と実証結果を提供する。
論文 参考訳(メタデータ) (2024-09-09T09:39:47Z) - Landscaping Linear Mode Connectivity [76.39694196535996]
線形モード接続(LMC)は理論と実用の両方の観点から関心を集めている。
ロスランドスケープがLCCに対して地形的にどのように振る舞う必要があるかのモデルを提供することで、その理解に向けて一歩前進する。
論文 参考訳(メタデータ) (2024-06-24T03:53:30Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - Deep Optimal Transport for Domain Adaptation on SPD Manifolds [9.552869120136005]
最適輸送理論とSPD多様体の幾何学を組み合わせた新しい幾何学的深層学習フレームワークを提案する。
提案手法は, 多様体構造を尊重しながらデータ分布を整列させ, 限界差と条件差を効果的に低減する。
提案手法は,KU,BNCI2014001,BNCI2015001の3つのクロスセッション脳コンピュータインタフェースデータセットに対して検証を行った。
論文 参考訳(メタデータ) (2022-01-15T03:13:02Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。