論文の概要: Holes in Latent Space: Topological Signatures Under Adversarial Influence
- arxiv url: http://arxiv.org/abs/2505.20435v1
- Date: Mon, 26 May 2025 18:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.246334
- Title: Holes in Latent Space: Topological Signatures Under Adversarial Influence
- Title(参考訳): 潜在空間の穴--対角的影響下でのトポロジカルシグナチャ
- Authors: Aideen Fay, Inés García-Redondo, Qiquan Wang, Haim Dubossarsky, Anthea Monod,
- Abstract要約: 我々は,言語モデルにおける多スケール潜在空間力学を特徴付けるために,トポロジカルデータ解析のツールである永続ホモロジー(PH)を提案する。
逆数条件は連続的に遅延トポロジを圧縮し、より小さなスケールで構造的多様性を低減し、粗いトポロジにおける支配的特徴を増幅することを示した。
本稿では,層内および層間を流れる情報の流れを定量化するニューロンレベルのPHフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.193044160835091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how adversarial conditions affect language models requires techniques that capture both global structure and local detail within high-dimensional activation spaces. We propose persistent homology (PH), a tool from topological data analysis, to systematically characterize multiscale latent space dynamics in LLMs under two distinct attack modes -- backdoor fine-tuning and indirect prompt injection. By analyzing six state-of-the-art LLMs, we show that adversarial conditions consistently compress latent topologies, reducing structural diversity at smaller scales while amplifying dominant features at coarser ones. These topological signatures are statistically robust across layers, architectures, model sizes, and align with the emergence of adversarial effects deeper in the network. To capture finer-grained mechanisms underlying these shifts, we introduce a neuron-level PH framework that quantifies how information flows and transforms within and across layers. Together, our findings demonstrate that PH offers a principled and unifying approach to interpreting representational dynamics in LLMs, particularly under distributional shift.
- Abstract(参考訳): 逆条件が言語モデルにどのように影響するかを理解するには、大域構造と高次元アクティベーション空間内の局所的詳細の両方をキャプチャする技術が必要である。
本研究では,2つの異なる攻撃モード - バックドアファインチューニングと間接的インジェクション - の下で, LLMにおけるマルチスケール潜時空間力学を体系的に特徴付けるために, トポロジデータ解析のツールである永続ホモロジー(PH)を提案する。
現状の6つのLCMを解析することにより, 対向条件が常に遅延トポロジーを圧縮し, より小さなスケールで構造的多様性を低減し, 粗いトポロジーにおける支配的特徴を増幅することを示した。
これらのトポロジ的シグネチャは、層、アーキテクチャ、モデルサイズにわたって統計的に堅牢であり、ネットワーク内のより深い敵効果の出現に合わせている。
これらのシフトの根底にあるよりきめ細かいメカニズムを捉えるために、情報の流れや層内および層間の変化を定量化するニューロンレベルのPHフレームワークを導入する。
この結果から, PH は LLM における表現力学の解釈, 特に分布シフトにおいて, 原理的かつ統一的な手法を提供することが明らかとなった。
関連論文リスト
- PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Unraveling the Localized Latents: Learning Stratified Manifold Structures in LLM Embedding Space with Sparse Mixture-of-Experts [3.9426000822656224]
大規模な言語モデルでは、埋め込みは入力データの難易度や領域によって異なる次元の局所多様体構造に存在していると推測する。
注意に基づくソフトゲーティングネットワークを組み込むことで,我々のモデルは入力データソースのアンサンブルのために,特別なサブマニフォールドを学習することを確認した。
論文 参考訳(メタデータ) (2025-02-19T09:33:16Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Persistent Topological Features in Large Language Models [0.6597195879147556]
トポロジ的特徴の持続性と変換を定量化する新しい指標である永続化類似性を導入する。
従来の類似度測定とは異なり、我々の手法はこれらの特徴の進化軌道全体を捉えている。
実用的なアプリケーションとして、永続化の類似性を活用して冗長なレイヤを特定し、実行します。
論文 参考訳(メタデータ) (2024-10-14T19:46:23Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。