論文の概要: Cross-Layer Discrete Concept Discovery for Interpreting Language Models
- arxiv url: http://arxiv.org/abs/2506.20040v2
- Date: Wed, 16 Jul 2025 21:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 15:53:04.791649
- Title: Cross-Layer Discrete Concept Discovery for Interpreting Language Models
- Title(参考訳): 言語モデル解釈のためのクロス層離散概念発見
- Authors: Ankur Garg, Xuemin Yu, Hassan Sajjad, Samira Ebrahimi Kahou,
- Abstract要約: クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
- 参考スコア(独自算出の注目度): 13.842670153893977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncovering emergent concepts across transformer layers remains a significant challenge because the residual stream linearly mixes and duplicates information, obscuring how features evolve within large language models. Current research efforts primarily inspect neural representations at single layers, thereby overlooking this cross-layer superposition and the redundancy it introduces. These representations are typically either analyzed directly for activation patterns or passed to probing classifiers that map them to a limited set of predefined concepts. To address these limitations, we propose cross-layer VQ-VAE (CLVQ-VAE), a framework that uses vector quantization to map representations across layers and in the process collapse duplicated residual-stream features into compact, interpretable concept vectors. Our approach uniquely combines top-k temperature-based sampling during quantization with EMA codebook updates, providing controlled exploration of the discrete latent space while maintaining code-book diversity. We further enhance the framework with scaled-spherical k-means++ for codebook initialization, which clusters by directional similarity rather than magnitude, better aligning with semantic structure in word embedding space.
- Abstract(参考訳): トランスフォーマー層にまたがる創発的な概念を明らかにすることは、大きな言語モデルの中で機能がどのように進化するかを、残余のストリームが線形に混合し、重複するため、依然として大きな課題である。
現在の研究は、主に単一層における神経表現を検査することで、この層間重ね合わせとそれが導入する冗長性を見落としている。
これらの表現は通常、アクティベーションパターンを直接解析するか、限定された事前定義された概念のセットにマッピングするプローブ分類器に渡される。
これらの制限に対処するため、我々は、ベクトル量子化を用いて層間の表現をマッピングし、プロセス中に重複した残ストリーム特徴をコンパクトで解釈可能な概念ベクトルに分解するクロス層VQ-VAE(CLVQ-VAE)を提案する。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせ,コードブックの多様性を維持しつつ,離散潜在空間を制御した探索を可能にする。
単語埋め込み空間のセマンティック構造との整合性を向上し,コードブックの初期化のための拡張球面k-means++によるフレームワークをさらに強化する。
関連論文リスト
- Rethinking VAE: From Continuous to Discrete Representations Without Probabilistic Assumptions [0.0]
本研究では,変分オートエンコーダ(VAE)とベクトル量子変分オートエンコーダ(VQ-VAE)の相互接続を,再構成トレーニングフレームワークを通じて確立する。
本稿では,クラスタリングセンターを導入し,データのコンパクト性を高め,適切に定義された潜在空間を確保することを目的とした,VAEライクなトレーニング手法を提案する。
MNIST、CelebA、FashionMNISTのデータセットの実験結果は、滑らかな補間遷移を示すが、曖昧さは持続する。
論文 参考訳(メタデータ) (2025-07-23T06:52:00Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Style Quantization for Data-Efficient GAN Training [18.40243591024141]
限られたデータ設定の下では、GANは入力潜在空間をナビゲートし効果的に活用するのに苦労することが多い。
一貫性の整合性を高める新しいアプローチである textitSQ-GAN を提案する。
実験は判別器の堅牢性と生成品質の両方において顕著な改善を示した。
論文 参考訳(メタデータ) (2025-03-31T16:28:44Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes [36.12653178844828]
トラジェクトリ予測は、一連のエージェントの将来の動きを予測できるため、ビデオ監視分析に不可欠である。
本稿では,離散潜在空間を用いたベクトル量子変分オートエンコーダ(VQ-VAEs)を導入し,後方崩壊問題に対処する。
このような2段階のフレームワークは、インスタンスレベルの離散化によって強化され、正確で多様な予測につながることを示す。
論文 参考訳(メタデータ) (2024-05-31T10:13:17Z) - Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations [15.59251297818324]
本稿では,ニューラルネットワークのアクティベーションに含まれる情報をグループ化する手法を提案する。
すべてのレイヤの機能を利用して、モデルのどの部分が関連する情報を含んでいるのかを推測する必要をなくします。
論文 参考訳(メタデータ) (2023-12-11T01:20:34Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。