論文の概要: Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning
- arxiv url: http://arxiv.org/abs/2508.01916v1
- Date: Sun, 03 Aug 2025 20:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.116922
- Title: Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning
- Title(参考訳): 教師なし学習による解釈可能な部分空間への表現空間の分解
- Authors: Xinting Huang, Michael Hahn,
- Abstract要約: 非基底整列部分空間を教師なしで学習する。
その結果、取得した部分空間内の符号化された情報は、異なる入力間で同じ抽象概念を共有する傾向にあることが示された。
また、2Bモデルに拡張性を示す証拠として、コンテキストを仲介する部分空間とパラメトリックな知識ルーティングを見つける。
- 参考スコア(独自算出の注目度): 6.652200654829215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding internal representations of neural models is a core interest of mechanistic interpretability. Due to its large dimensionality, the representation space can encode various aspects about inputs. To what extent are different aspects organized and encoded in separate subspaces? Is it possible to find these ``natural'' subspaces in a purely unsupervised way? Somewhat surprisingly, we can indeed achieve this and find interpretable subspaces by a seemingly unrelated training objective. Our method, neighbor distance minimization (NDM), learns non-basis-aligned subspaces in an unsupervised manner. Qualitative analysis shows subspaces are interpretable in many cases, and encoded information in obtained subspaces tends to share the same abstract concept across different inputs, making such subspaces similar to ``variables'' used by the model. We also conduct quantitative experiments using known circuits in GPT-2; results show a strong connection between subspaces and circuit variables. We also provide evidence showing scalability to 2B models by finding separate subspaces mediating context and parametric knowledge routing. Viewed more broadly, our findings offer a new perspective on understanding model internals and building circuits.
- Abstract(参考訳): ニューラルモデルの内部表現を理解することは、機械的解釈可能性の核となる関心事である。
その次元が大きいため、表現空間は入力に関する様々な側面を符号化することができる。
どの程度異なるアスペクトが、別々のサブスペースに整理され、エンコードされているか?
このような `natural'' の部分空間を純粋に教師なしの方法で見つけることは可能か?
驚くべきことに、私たちは実際にこれを達成することができ、一見無関係な訓練目標によって解釈可能な部分空間を見つけることができます。
近接距離最小化法 (NDM) は非基底整列部分空間を教師なしで学習する。
定性的解析は、部分空間は多くの場合解釈可能であり、得られた部分空間のエンコードされた情報は異なる入力間で同じ抽象概念を共有する傾向にあり、そのような部分空間はモデルで使用される ``variables'' に類似していることを示している。
また, GPT-2の既知回路を用いた定量的実験を行い, 回路変数と部分空間との強い関係を示す。
また、2Bモデルに拡張性を示す証拠として、コンテキストを仲介する部分空間とパラメトリックな知識ルーティングを見つける。
より広い視野で見れば、我々の発見はモデル内部とビルディング回路の理解の新しい視点を提供する。
関連論文リスト
- Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
baturay LLMが意味理解に関連する内部的な組織構造を調査する。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - SliderSpace: Decomposing the Visual Capabilities of Diffusion Models [50.82362500995365]
SliderSpaceは拡散モデルの視覚的能力を自動分解するフレームワークである。
単一のテキストプロンプトから複数の解釈可能かつ多様な方向を同時に検出する。
本手法は,ベースラインに比べて多様性があり,有用である。
論文 参考訳(メタデータ) (2025-02-03T18:59:55Z) - Unsupervised Panoptic Interpretation of Latent Spaces in GANs Using Space-Filling Vector Quantization [9.181917968017258]
GAN(Generative Adversarial Network)は、サンプルを現実世界の画像にマッピングできる潜在空間を学習する。
初期の教師付き手法は、解釈可能な潜在空間を作成したり、解釈可能な方向を発見することを目的としていた。
本研究では,空間充足ベクトル量子化 (SFVQ) と呼ばれるベクトル量子化の修正手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T19:56:02Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Input Space Mode Connectivity in Deep Neural Networks [5.8470747480006695]
我々は、ロスランドスケープモード接続の概念をディープニューラルネットワークの入力空間に拡張する。
深層ネットワークの入力空間におけるその存在の理論的および実証的な証拠を示す。
我々は、モード接続を利用して、敵の例に関する新たな洞察を得るとともに、敵検出の可能性を示す。
論文 参考訳(メタデータ) (2024-09-09T17:03:43Z) - More than Correlation: Do Large Language Models Learn Causal
Representations of Space? [6.293100288400849]
本研究では,大規模言語モデルにおける空間表現の因果関係を明らかにすることに焦点を当てた。
実験の結果,空間表現が次の単語予測におけるモデルの性能に影響を与え,地理空間情報に依存する下流課題が示された。
論文 参考訳(メタデータ) (2023-12-26T01:27:29Z) - Occlusion Sensitivity Analysis with Augmentation Subspace Perturbation
in Deep Feature Space [7.021872917042116]
本稿では,コンピュータビジョンのための新しい摂動に基づく解釈可能性アプローチであるOcclusion Sensitivity Analysis with Deep Feature Augmentation Subspace (OSA-DAS)を紹介する。
提案手法では,DNNの出力ベクトルを用いて,深部特徴ベクトル空間内に低次元部分空間を構築する。
我々はImageNet-1kを広範囲にテストし、クラスやモデルに依存しないアプローチは一般的に使われているインタプリタよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T13:26:40Z) - A Geometric Notion of Causal Probing [85.49839090913515]
線形部分空間仮説は、言語モデルの表現空間において、動詞数のような概念に関するすべての情報が線形部分空間に符号化されていることを述べる。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
2つの言語モデルにまたがる少なくとも1つの概念に対して、この概念のサブスペースは、生成された単語の概念値を精度良く操作することができる。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z) - Exploring the Common Principal Subspace of Deep Features in Neural
Networks [50.37178960258464]
我々は、同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、潜在空間において共通の主部分空間を共有することを発見した。
具体的には、DNNで学んだ深い機能の主部分空間を表すために、$mathcalP$-vectorを新たに設計する。
異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。
論文 参考訳(メタデータ) (2021-10-06T15:48:32Z) - EigenGAN: Layer-Wise Eigen-Learning for GANs [84.33920839885619]
EigenGANは、異なる発電機層から解釈可能で制御可能な寸法を無監督にマイニングすることができます。
特定の固有次元の係数をトラバースすることで、ジェネレータは特定の意味属性に対応する連続的な変化を伴うサンプルを生成することができる。
論文 参考訳(メタデータ) (2021-04-26T11:14:37Z) - Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral
Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。
この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。
2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-21T16:29:59Z) - Deep Metric Structured Learning For Facial Expression Recognition [58.7528672474537]
本研究では,よく定義された構造を持つ組込み部分空間を作成するための深度計量学習モデルを提案する。
これらの部分空間を作成するために、出力空間上にガウス構造を課す新しい損失関数が導入された。
学習した埋め込みは,表現検索や感情認識など,様々な応用に有効であることが実験的に実証された。
論文 参考訳(メタデータ) (2020-01-18T06:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。