論文の概要: InverseScope: Scalable Activation Inversion for Interpreting Large Language Models
- arxiv url: http://arxiv.org/abs/2506.07406v1
- Date: Mon, 09 Jun 2025 03:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.109906
- Title: InverseScope: Scalable Activation Inversion for Interpreting Large Language Models
- Title(参考訳): InverseScope: 大規模言語モデルの解釈のためのスケーラブルなアクティベーションインバージョン
- Authors: Yifan Luo, Zhennan Zhou, Bin Dong,
- Abstract要約: InverseScopeは、入力インバージョンを介して神経活性化を解釈するための仮定ライトでスケーラブルなフレームワークである。
高次元空間におけるサンプリングの非効率性に対処するために,新しい条件生成アーキテクチャを提案する。
また,サンプル入力上で計算された特徴整合率を用いて,解釈可能性仮説をテストする定量的評価プロトコルを導入する。
- 参考スコア(独自算出の注目度): 6.841889611296894
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the internal representations of large language models (LLMs) is a central challenge in interpretability research. Existing feature interpretability methods often rely on strong assumptions about the structure of representations that may not hold in practice. In this work, we introduce InverseScope, an assumption-light and scalable framework for interpreting neural activations via input inversion. Given a target activation, we define a distribution over inputs that generate similar activations and analyze this distribution to infer the encoded features. To address the inefficiency of sampling in high-dimensional spaces, we propose a novel conditional generation architecture that significantly improves sample efficiency compared to previous methods. We further introduce a quantitative evaluation protocol that tests interpretability hypotheses using feature consistency rate computed over the sampled inputs. InverseScope scales inversion-based interpretability methods to larger models and practical tasks, enabling systematic and quantitative analysis of internal representations in real-world LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部表現を理解することは、解釈可能性研究における中心的な課題である。
既存の機能解釈可能性の手法は、実際には成り立たない表現の構造に関する強い仮定に依存することが多い。
本研究では,入力インバージョンによるニューラルアクティベーションを解釈する,仮定ライトでスケーラブルなフレームワークであるInverseScopeを紹介する。
ターゲットアクティベーションが与えられた場合、同様のアクティベーションを生成する入力上の分布を定義し、この分布を分析して符号化された特徴を推測する。
本研究では, 高次元空間におけるサンプリングの非効率性に対処するため, サンプル効率を従来の手法に比べて大幅に向上させる条件付き生成アーキテクチャを提案する。
さらに、サンプル入力上で計算された特徴整合率を用いて、解釈可能性仮説をテストする定量的評価プロトコルを導入する。
InverseScopeは、インバージョンベースの解釈可能性手法をより大きなモデルと実用的なタスクに拡張し、現実世界のLLMの内部表現の体系的および定量的解析を可能にする。
関連論文リスト
- Efficient Latent Semantic Clustering for Scaling Test-Time Computation of LLMs [14.34599799034748]
テスト時間計算のスケールは、大規模言語モデルの信頼性と品質を改善するための有望な戦略となっている。
主要な共有コンポーネントはセマンティッククラスタリング(セマンティッククラスタリング)である。
本稿では,ジェネレータLSMの内部隠蔽状態をクラスタリングに利用する軽量でコンテキストに敏感なLatent Semantic Clustering (LSC)を提案する。
論文 参考訳(メタデータ) (2025-05-31T02:08:32Z) - Probabilistic Lexical Manifold Construction in Large Language Models via Hierarchical Vector Field Interpolation [0.0]
提案手法は,単語表現が位相的整合性に従属する確率関数空間を構築する。
確率制約は、文脈関係を洗練することによって語彙コヒーレンスを高め、複数の言語分布における意味的安定性を改善する。
計算効率の評価では、表現は小さな処理オーバーヘッドをもたらすが、構造化された表現学習アプローチは実用的展開にはスケーラブルである。
論文 参考訳(メタデータ) (2025-02-14T08:47:10Z) - Latent Lexical Projection in Large Language Models: A Novel Approach to Implicit Representation Refinement [0.0]
ラテントレキシカル射影 (LLP) は、構造化された空間からラテント空間への変換を通じて、レキシカル表現を洗練するために導入された。
LLPは既存の言語モデルアーキテクチャに最適化されたプロジェクション機構を統合する。
評価は、パープレキシティの低下とBLEUスコアの上昇を示し、予測精度と流布率の改善を示唆している。
論文 参考訳(メタデータ) (2025-02-03T23:18:53Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。