論文の概要: Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
- arxiv url: http://arxiv.org/abs/2509.25045v1
- Date: Mon, 29 Sep 2025 16:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.145217
- Title: Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
- Title(参考訳): 超次元プローブ:ベクトル記号アーキテクチャによるLLM表現の復号
- Authors: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini,
- Abstract要約: 超次元プローブは、大規模言語モデルベクトル空間から情報を復号するための新しいパラダイムである。
シンボリック表現とニューラルプローブのアイデアを組み合わせて、モデルの残留ストリームを解釈可能な概念に投影する。
我々の研究は、LLMベクトル空間における情報復号化を進め、神経表現からより情報的、解釈可能、構造化された特徴を抽出することを可能にする。
- 参考スコア(独自算出の注目度): 12.466522376751811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their capabilities, Large Language Models (LLMs) remain opaque with limited understanding of their internal representations. Current interpretability methods, such as direct logit attribution (DLA) and sparse autoencoders (SAEs), provide restricted insight due to limitations such as the model's output vocabulary or unclear feature names. This work introduces Hyperdimensional Probe, a novel paradigm for decoding information from the LLM vector space. It combines ideas from symbolic representations and neural probing to project the model's residual stream into interpretable concepts via Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs and conventional probes while overcoming their key limitations. We validate our decoding paradigm with controlled input-completion tasks, probing the model's final state before next-token prediction on inputs spanning syntactic pattern recognition, key-value associations, and abstract inference. We further assess it in a question-answering setting, examining the state of the model both before and after text generation. Our experiments show that our probe reliably extracts meaningful concepts across varied LLMs, embedding sizes, and input domains, also helping identify LLM failures. Our work advances information decoding in LLM vector space, enabling extracting more informative, interpretable, and structured features from neural representations.
- Abstract(参考訳): その能力にもかかわらず、Large Language Models (LLM) は内部表現の理解が限られているため不透明である。
直接ロジット属性 (DLA) やスパースオートエンコーダ (SAE) といった現在の解釈可能性法は、モデルの出力語彙や不明瞭な特徴名などの制限により、限られた洞察を提供する。
この研究は、LLMベクトル空間から情報を復号するための新しいパラダイムであるHyperdimensional Probeを紹介する。
記号表現とニューラルプローブのアイデアを組み合わせて、モデルの残留ストリームをベクトル記号アーキテクチャ(VSA)を介して解釈可能な概念に投影する。
このプローブは、SAEと従来のプローブの強度を組み合わせ、重要な限界を克服する。
我々は,構文パターン認識,キー値関連,抽象推論にまたがる入力の次点予測の前に,モデルの最終状態を探索し,制御された入力-補完タスクで復号パラダイムを検証する。
さらに,テキスト生成前後のモデルの状態を調べ,質問応答設定で評価する。
実験により,LLMの故障の特定にも役立ち,様々なLLM,埋め込みサイズ,入力領域に有意義な概念を確実に抽出できることが示唆された。
我々の研究は、LLMベクトル空間における情報復号化を進め、神経表現からより情報的、解釈可能、構造化された特徴を抽出することを可能にする。
関連論文リスト
- Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor [32.34399128209528]
本研究では,事前学習したテキスト・画像拡散モデルが,命令認識型ビジュアルエンコーダとして機能するかどうかを検討する。
拡散機能はセマンティクスに富み、強い画像テキストアライメントを符号化できる。
次に,これらの特徴と大規模言語モデルとの整合性について検討し,漏洩現象を明らかにする。
論文 参考訳(メタデータ) (2025-07-09T17:59:47Z) - Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。
グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。
提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Steered Generation via Gradient Descent on Sparse Features [1.534667887016089]
クエリ埋め込みのスパース表現を学習するために、スパースオートエンコーダを訓練することにより、大言語モデル(LLM)の内部構造を変更する。
このスパース表現の操作は、出力を異なるスタイル的および認知的目標に向けて効果的に変換することを実証する。
論文 参考訳(メタデータ) (2025-02-25T21:06:14Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。
ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。
特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文 参考訳(メタデータ) (2024-10-08T02:25:38Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。
提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。
実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。