論文の概要: MENTIS: What Belief Changes Under Alignment? Measuring Multi-Scale Latent Torsion in Language Models
- arxiv url: http://arxiv.org/abs/2606.01060v1
- Date: Sun, 31 May 2026 07:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.181588
- Title: MENTIS: What Belief Changes Under Alignment? Measuring Multi-Scale Latent Torsion in Language Models
- Title(参考訳): mentIS:アライメントによる信念の変化は何か? : 言語モデルにおける多スケール潜時ねじりの測定
- Authors: Partha Pratim Saha, Samarth Raina, Mayur Parvatikar, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das,
- Abstract要約: 我々は、アライメントによる内部再構成を測定するためのフレームワークであるMENTISを紹介する。
LITMUSでは,4組の7-8Bモデルペアに対して,アライメントによる変化は均一ではなく選択的であることが判明した。
これらの結果は, 行動レベルの評価だけでは明らかでない, 内部計算において, 深度局所化された幾何的シグネチャが構築されていることを示唆している。
- 参考スコア(独自算出の注目度): 16.071341117554038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference alignment has substantially improved the observable behavior of large language models, yet it remains unclear what alignment changes internally. Aligned systems still fail under jailbreaks, prompt injection, and retrieval-time corruption, suggesting behavior-level evaluation alone is incomplete. Post-training should leave measurable traces in internal computation. We ask: when an instruction-tuned (IT) model becomes a preference-aligned (PA) model, what geometric structure changes, where do those changes concentrate, and how selectively do they vary across concepts, prompts, and model families? We introduce MENTIS, a geometry-first framework for measuring alignment-induced internal reorganization in paired checkpoints. MENTIS compares IT and PA models using a primary layerwise covariance-based torsion norm (T1), a secondary spectral torsion diagnostic (T2), and an Energy-Radiance-Activation measure (ERA) for depth localization. Across four 7-8B model pairs on LITMUS, our study reveals that alignment-induced change is selective rather than uniform: normative concepts exhibit larger torsion shifts than factual concepts on average; torsion is negatively correlated with contextual entropy; and peak effects localize to architecture-specific mid-to-late layers. The same pattern appears across word-level, prompt-level, and model-level analyses. These results suggest preference alignment leaves structured, depth-localized geometric signatures in internal computation beyond what behavior-level evaluation alone can reveal.
- Abstract(参考訳): 参照アライメントは、大きな言語モデルの観測可能な振る舞いを大幅に改善した。
調整されたシステムは、まだジェイルブレイク、インジェクション、検索時の汚職の下で失敗し、行動レベルの評価だけでは不完全であることを示唆している。
トレーニング後のトレースは、内部計算に測定可能なトレースを残すべきである。
インストラクションチューニング(IT)モデルが嗜好整合(PA)モデルになったとき、幾何構造が変化し、それらの変化はどこに集中するのか、どのようにして概念、プロンプト、モデルファミリーによって異なるのか?
本稿では,アライメントによって引き起こされる内部再構成をペアチェックポイントで測定する,幾何学第一のフレームワークであるMENTISを紹介する。
MENTISは、第1層の共分散に基づくトーション標準(T1)、第2のスペクトルトーション診断(T2)、深度ローカライゼーションのためのエネルギー放射能測定(ERA)を用いて、ITモデルとPAモデルを比較する。
LITMUSでは,4つの7-8Bモデルペアに対して,アライメントによって引き起こされる変化が一様ではなく選択的であることが明らかとなった。
同じパターンは、単語レベル、プロンプトレベル、モデルレベルの分析にまたがって現れる。
これらの結果は, 行動レベルの評価だけでは明らかでない, 内部計算において, 深度局所化された幾何的シグネチャが構築されていることを示唆している。
関連論文リスト
- Geometry-Adaptive Explainer for Faithful Dictionary-Based Interpretability under Distribution Shift [17.611062308867275]
分布シフトは、モデルが積極的に使用する部分空間を回転させ、イン・ディストリビューション(ID)アクティベーションに基づいて訓練された説明者の辞書を誤ることを示す。
我々は,このミスアライメントを,ID辞書とOOD活性部分空間との間の幾何学的距離である忠実度ギャップとして定式化する。
提案するGeometry-Adaptive Explainer (GAE, Geometry-Adaptive Explainer) は,従来の特徴構造を保ちながら,OOD-active 部分空間で説明者の辞書を実現する。
論文 参考訳(メタデータ) (2026-05-21T00:46:01Z) - SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments [75.60795462502949]
SpaceEvoは3D空間推論のための自己進化型フレームワークである。
16の空間推論タスクカテゴリを明示的な幾何学的検証規則で定式化する。
注釈のない3Dシーンをゼロノイズのインタラクティブなオラクルに変換し、モデルコンセンサスを客観的な物理的フィードバックに置き換える。
論文 参考訳(メタデータ) (2026-04-15T17:59:12Z) - Beyond the Covariance Trap: Unlocking Generalization in Same-Subject Knowledge Editing for Large Language Models [18.348253900450093]
モデルでは、元の編集形式でのリコールに成功しながらも、ユーザ命令に従う際に、更新された知識をリコールすることができないことを示す。
等方的幾何アライメントを用いて表現の偏差を最小限に抑えるRoSE(Robust Same-subject Editing)と階層的知識統合(Hierarchical Knowledge Integration)を導入し,最適化景観の円滑化を図る。
論文 参考訳(メタデータ) (2026-03-16T16:44:54Z) - Multi-Way Representation Alignment [19.53606443098969]
地図表現の現在の戦略は本質的にペアワイズであり、モデルの数と二次的にスケーリングし、一貫したグローバル参照を得られない。
我々はまず、モデル縫合のようなタスクに不可欠な内部幾何学を保存した共有宇宙を構築するために、一般化されたプロクリスト解析(GPA)を適用した。
次に、厳密な等尺的アライメントが検索に最適であることを示す。そこでは、カノニカル相関解析(CCA)のような合意を最大化する手法が一般的である。
このギャップを埋めるために、我々はついにGeometry-Corrected Procrustes Alignment (GCPA)を提案する。
論文 参考訳(メタデータ) (2026-02-05T21:33:45Z) - Understanding the Implicit Biases of Design Choices for Time Series Foundation Models [90.894232610821]
時系列基礎モデル(TSFM)は、時系列予測と関連する時間的タスクのための潜在的に強力で汎用的なツールのクラスである。
彼らの行動はデザインの微妙な帰納的バイアスによって強く形作られています。
モデルやデータの性質によって、これらのバイアスが直感的であるか、非常に直感的であるかを示す。
論文 参考訳(メタデータ) (2025-10-22T04:42:35Z) - Understanding Post-Training Structural Changes in Large Language Models [3.054513120350576]
後学習は大規模言語モデル(LLM)の振る舞いを根本的に変える
本研究は,指導チューニングと長鎖蒸留(Long-CoT)の2つの広く採用されているポストトレーニング手法に焦点をあてる。
論文 参考訳(メタデータ) (2025-09-22T15:03:36Z) - Behavioral Fingerprinting of Large Language Models [35.18856642496912]
現在のLLM(Large Language Models)のベンチマークは主にパフォーマンス指標に焦点を当てている。
本稿では,従来の評価を超越した行動フィンガープリントの枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-02T07:03:20Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。