論文の概要: Cross-Layer Discrete Concept Discovery for Interpreting Language Models
- arxiv url: http://arxiv.org/abs/2506.20040v1
- Date: Tue, 24 Jun 2025 22:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.548788
- Title: Cross-Layer Discrete Concept Discovery for Interpreting Language Models
- Title(参考訳): 言語モデル解釈のためのクロス層離散概念発見
- Authors: Ankur Garg, Xuemin Yu, Hassan Sajjad, Samira Ebrahimi Kahou,
- Abstract要約: glsclvqvaeは、ベクトル量子化を使用してレイヤ間の表現をマッピングするフレームワークである。
我々の手法は、量子化中の温度に基づくサンプリングとEMAコードブックの更新を組み合わせたものである。
- 参考スコア(独自算出の注目度): 13.842670153893977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncovering emergent concepts across transformer layers remains a significant challenge because the residual stream linearly mixes and duplicates information, obscuring how features evolve within large language models. Current research efforts primarily inspect neural representations at single layers, thereby overlooking this cross-layer superposition and the redundancy it introduces. These representations are typically either analyzed directly for activation patterns or passed to probing classifiers that map them to a limited set of predefined concepts. To address these limitations, we propose \gls{clvqvae}, a framework that uses vector quantization to map representations across layers and in the process collapse duplicated residual-stream features into compact, interpretable concept vectors. Our approach uniquely combines top-$k$ temperature-based sampling during quantization with EMA codebook updates, providing controlled exploration of the discrete latent space while maintaining code-book diversity. We further enhance the framework with scaled-spherical k-means++ for codebook initialization, which clusters by directional similarity rather than magnitude, better aligning with semantic structure in word embedding space.
- Abstract(参考訳): トランスフォーマー層にまたがる創発的な概念を明らかにすることは、大きな言語モデルの中で機能がどのように進化するかを、残余のストリームが線形に混合し、重複するため、依然として大きな課題である。
現在の研究は、主に単一層における神経表現を検査することで、この層間重ね合わせとそれが導入する冗長性を見落としている。
これらの表現は通常、アクティベーションパターンを直接解析するか、限定された事前定義された概念のセットにマッピングするプローブ分類器に渡される。
これらの制約に対処するために, ベクトル量子化を用いて, 層間の表現をマッピングし, プロセス中に重複した残ストリーム特徴をコンパクトで解釈可能な概念ベクトルに分解するフレームワークである \gls{clvqvae} を提案する。
当社のアプローチでは,量子化中の温度ベースサンプリングとEMAコードブック更新を一意に組み合わせて,コードブックの多様性を維持しつつ,離散潜在空間を制御的に探索する。
単語埋め込み空間のセマンティック構造との整合性を向上し,コードブックの初期化のための拡張球面k-means++によるフレームワークをさらに強化する。
関連論文リスト
- Style Quantization for Data-Efficient GAN Training [18.40243591024141]
限られたデータ設定の下では、GANは入力潜在空間をナビゲートし効果的に活用するのに苦労することが多い。
一貫性の整合性を高める新しいアプローチである textitSQ-GAN を提案する。
実験は判別器の堅牢性と生成品質の両方において顕著な改善を示した。
論文 参考訳(メタデータ) (2025-03-31T16:28:44Z) - Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations [15.59251297818324]
本稿では,ニューラルネットワークのアクティベーションに含まれる情報をグループ化する手法を提案する。
すべてのレイヤの機能を利用して、モデルのどの部分が関連する情報を含んでいるのかを推測する必要をなくします。
論文 参考訳(メタデータ) (2023-12-11T01:20:34Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。