論文の概要: The Shape of Adversarial Influence: Characterizing LLM Latent Spaces with Persistent Homology
- arxiv url: http://arxiv.org/abs/2505.20435v2
- Date: Thu, 09 Oct 2025 16:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.496934
- Title: The Shape of Adversarial Influence: Characterizing LLM Latent Spaces with Persistent Homology
- Title(参考訳): 敵対的影響の形状:永続的ホモロジーを用いたLLM潜時空間の特徴付け
- Authors: Aideen Fay, Inés García-Redondo, Qiquan Wang, Haim Dubossarsky, Anthea Monod,
- Abstract要約: 本研究では,大規模言語モデルの内部表現空間に対して,逆入力が体系的にどう影響するかに着目した。
アクティベーションの形状と神経情報の流れを定量化することにより、アーキテクチャに依存しない枠組みは、表現的変化の基本的な不変性を明らかにする。
- 参考スコア(独自算出の注目度): 4.280045926995889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing interpretability methods for Large Language Models (LLMs) often fall short by focusing on linear directions or isolated features, overlooking the high-dimensional, nonlinear, and relational geometry within model representations. This study focuses on how adversarial inputs systematically affect the internal representation spaces of LLMs, a topic which remains poorly understood. We propose persistent homology (PH), a tool from topological data analysis, as a principled framework to characterize the multi-scale dynamics within LLM activations. Using PH, we systematically analyze six state-of-the-art models under two distinct adversarial conditions, indirect prompt injection and backdoor fine-tuning, and identify a consistent topological signature of adversarial influence. Across architectures and model sizes, adversarial inputs induce ``topological compression'', where the latent space becomes structurally simpler, collapsing from varied, compact, small-scale features into fewer, dominant, and more dispersed large-scale ones. This topological signature is statistically robust across layers, highly discriminative, and provides interpretable insights into how adversarial effects emerge and propagate. By quantifying the shape of activations and neuronal information flow, our architecture-agnostic framework reveals fundamental invariants of representational change, offering a complementary perspective to existing interpretability methods.
- Abstract(参考訳): 既存のLLM(Large Language Models)の解釈可能性法は、しばしば線形方向や孤立した特徴に注目して、モデル表現内の高次元、非線形、およびリレーショナル幾何学を見渡すことで不足する。
本研究は,LLMの内部表現空間に対して,逆入力が体系的にどう影響するかに焦点を当てる。
我々は,LLMアクティベーション内のマルチスケールダイナミクスを特徴付けるための原則的フレームワークとして,トポロジカルデータ解析のツールである永続ホモロジー(PH)を提案する。
PHを用いて,2つの異なる逆境条件下で6つの最先端モデルを系統的に解析し,間接的インジェクションとバックドアファインチューニングを行い,逆境の影響の一貫したトポロジ的特徴を同定した。
アーキテクチャとモデルサイズ全体にわたって、敵対的な入力は ``トポロジカル圧縮' を誘導し、潜在空間は構造的に単純になり、より小さくコンパクトで小さな特徴からより小さく、支配的で、より分散した大規模特徴へと崩壊する。
このトポロジカルなシグネチャは、層をまたいで統計的に堅牢であり、非常に差別的であり、敵対的効果の出現と伝播に関する解釈可能な洞察を提供する。
アクティベーションの形状と神経情報の流れを定量化することにより、我々のアーキテクチャ非依存のフレームワークは、表現的変化の基本的な不変点を明らかにし、既存の解釈可能性手法を補完する視点を提供する。
関連論文リスト
- Latent Space Topology Evolution in Multilayer Perceptrons [0.26107298043931204]
本稿では,多層パーセプトロン(MLP)の内部表現を解釈するフレームワークを提案する。
我々は、単純化された地図によって連結された単純化された複合体の列である単純化されたタワーを構築し、ネットワーク層間のデータの進化を捉える。
論文 参考訳(メタデータ) (2025-06-02T11:51:53Z) - Spectral Insights into Data-Oblivious Critical Layers in Large Language Models [7.486925126518052]
我々は,事前調整言語モデルにおいて,本質的な臨界層を特定するためのデータ公開アプローチを提案する。
表現空間が著しく変化する層も微調整時に最も影響を受ける層であることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:21:39Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Unraveling the Localized Latents: Learning Stratified Manifold Structures in LLM Embedding Space with Sparse Mixture-of-Experts [3.9426000822656224]
大規模な言語モデルでは、埋め込みは入力データの難易度や領域によって異なる次元の局所多様体構造に存在していると推測する。
注意に基づくソフトゲーティングネットワークを組み込むことで,我々のモデルは入力データソースのアンサンブルのために,特別なサブマニフォールドを学習することを確認した。
論文 参考訳(メタデータ) (2025-02-19T09:33:16Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Persistent Topological Features in Large Language Models [0.6597195879147556]
トポロジ的特徴の持続性と変換を定量化する新しい指標である永続化類似性を導入する。
従来の類似度測定とは異なり、我々の手法はこれらの特徴の進化軌道全体を捉えている。
実用的なアプリケーションとして、永続化の類似性を活用して冗長なレイヤを特定し、実行します。
論文 参考訳(メタデータ) (2024-10-14T19:46:23Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。