論文の概要: AlignSAE: Concept-Aligned Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2512.02004v1
- Date: Mon, 01 Dec 2025 18:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.03374
- Title: AlignSAE: Concept-Aligned Sparse Autoencoders
- Title(参考訳): AlignSAE: 概念対応スパースオートエンコーダ
- Authors: Minglai Yang, Xinyu Guo, Mihai Surdeanu, Liangming Pan,
- Abstract要約: 本稿では,SAE の機能と定義オントロジーを"pre-train, then-train" カリキュラムで整合させる手法である AlignSAE を紹介する。
初期教師なしトレーニングフェーズの後、特定の概念を専用潜在スロットにバインドするために教師付きポストトレーニングを適用する。
この分離により、非関係な特徴から干渉することなく、特定の関係を検査・制御できる解釈可能なインターフェースが生成される。
- 参考スコア(独自算出の注目度): 47.18866175760984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) encode factual knowledge within hidden parametric spaces that are difficult to inspect or control. While Sparse Autoencoders (SAEs) can decompose hidden activations into more fine-grained, interpretable features, they often struggle to reliably align these features with human-defined concepts, resulting in entangled and distributed feature representations. To address this, we introduce AlignSAE, a method that aligns SAE features with a defined ontology through a "pre-train, then post-train" curriculum. After an initial unsupervised training phase, we apply supervised post-training to bind specific concepts to dedicated latent slots while preserving the remaining capacity for general reconstruction. This separation creates an interpretable interface where specific relations can be inspected and controlled without interference from unrelated features. Empirical results demonstrate that AlignSAE enables precise causal interventions, such as reliable "concept swaps", by targeting single, semantically aligned slots.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検査や制御が難しい隠れパラメトリック空間内の事実知識を符号化する。
スパースオートエンコーダ(SAE)は、隠れたアクティベーションをよりきめ細かな、解釈可能な機能に分解することができるが、これらの特徴を人間の定義した概念と確実に整合させることに苦慮し、絡み合った、分散した特徴表現をもたらす。
そこで本研究では,SAE機能と定義オントロジーを協調する手法であるAlignSAEを紹介する。
初期教師なしトレーニングフェーズの後に、教師付きポストトレーニングを適用して、特定の概念を専用の潜在スロットにバインドすると同時に、一般的な再構築のための残りの能力を保持する。
この分離により、非関係な特徴から干渉することなく、特定の関係を検査・制御できる解釈可能なインターフェースが生成される。
実証的な結果は、AlignSAEが単一の意味的に整合したスロットをターゲットにすることで、信頼できる"概念スワップ"のような正確な因果介入を可能にすることを示している。
関連論文リスト
- Visual Exploration of Feature Relationships in Sparse Autoencoders with Curated Concepts [8.768503486874623]
利用可能なすべての機能を同時に視覚化する試みよりも、キュレートされた概念とその対応するSAE機能を優先する集中探索フレームワークを提案する。
本稿では,トポロジに基づく視覚符号化と次元の縮小を組み合わせ,局所的・グローバル的関係を忠実に表現するインタラクティブな可視化システムを提案する。
論文 参考訳(メタデータ) (2025-11-08T15:36:57Z) - LAVA: Explainability for Unsupervised Latent Embeddings [0.0]
LAVA(Locality-Aware Variable Associations)は、局所的な埋め込み組織と入力機能との関係を説明するために設計された。
MNIST と単細胞腎データセットの UMAP 埋め込みに基づいて,LAVA が関連する特徴関連を捉えていることを示す。
論文 参考訳(メタデータ) (2025-09-25T13:38:17Z) - Semantic Concentration for Self-Supervised Dense Representations Learning [103.10708947415092]
イメージレベルの自己教師型学習(SSL)は大きな進歩を遂げているが、パッチの密度の高い表現を学ぶことは依然として難しい。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
論文 参考訳(メタデータ) (2025-09-11T13:12:10Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning [38.507994878183474]
ゼロショット学習のためのセマンティック・コンテクスト化された視覚パッチ(SVIP)を紹介する。
本稿では,入力空間における意味的無関係なパッチを事前に学習する自己教師付きパッチ選択機構を提案する。
SVIPは、より解釈可能でセマンティックにリッチな特徴表現を提供しながら、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-13T10:59:51Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。