論文の概要: From Atoms to Trees: Building a Structured Feature Forest with Hierarchical Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2602.11881v1
- Date: Thu, 12 Feb 2026 12:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.806685
- Title: From Atoms to Trees: Building a Structured Feature Forest with Hierarchical Sparse Autoencoders
- Title(参考訳): Atomからツリーへ - 階層的なスパースオートエンコーダによる構造を持った機能フォレストの構築
- Authors: Yifan Luo, Yang Zhan, Jiedong Jiang, Tianyang Liu, Mingrui Wu, Zhennan Zhou, Bin Dong,
- Abstract要約: 階層的スパースオートエンコーダ(HSAE)は、一連のSAEとそれらの特徴間の親子関係を学習する。
我々の研究は、言語表現に埋め込まれたマルチスケールの概念構造を発見し解析するための、強力でスケーラブルなツールを提供する。
- 参考スコア(独自算出の注目度): 12.294297654425334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse autoencoders (SAEs) have proven effective for extracting monosemantic features from large language models (LLMs), yet these features are typically identified in isolation. However, broad evidence suggests that LLMs capture the intrinsic structure of natural language, where the phenomenon of "feature splitting" in particular indicates that such structure is hierarchical. To capture this, we propose the Hierarchical Sparse Autoencoder (HSAE), which jointly learns a series of SAEs and the parent-child relationships between their features. HSAE strengthens the alignment between parent and child features through two novel mechanisms: a structural constraint loss and a random feature perturbation mechanism. Extensive experiments across various LLMs and layers demonstrate that HSAE consistently recovers semantically meaningful hierarchies, supported by both qualitative case studies and rigorous quantitative metrics. At the same time, HSAE preserves the reconstruction fidelity and interpretability of standard SAEs across different dictionary sizes. Our work provides a powerful, scalable tool for discovering and analyzing the multi-scale conceptual structures embedded in LLM representations.
- Abstract(参考訳): スパースオートエンコーダ (SAEs) は大規模言語モデル (LLMs) からモノセマンティックな特徴を抽出するのに有効であることが証明されているが、これらの特徴は通常独立して識別される。
しかし、LLMは自然言語の内在的な構造を捉えており、特に「機能分割」現象はそのような構造が階層的であることを示している。
そこで我々は, 階層型スパースオートエンコーダ(Hierarchical Sparse Autoencoder, HSAE)を提案する。
HSAEは、構造的制約損失とランダムな特徴摂動機構という2つの新しいメカニズムを通じて、親と子の特徴の整合性を強化する。
様々なLSMおよび層にわたる広範囲な実験により、HSAEは定性的ケーススタディと厳密な定量的指標の両方によって支えられ、意味論的に意味のある階層を一貫して回復することを示した。
同時に、HSAEは、異なる辞書サイズにわたる標準SAEの再構築の忠実さと解釈可能性を維持している。
我々の研究は、LLM表現に埋め込まれたマルチスケールの概念構造を発見し解析するための、強力でスケーラブルなツールを提供する。
関連論文リスト
- NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-Identification [17.10113184019939]
ReID(Multi-modal object Re-Identification)は、不均一なモーダルをまたいだ正確な同一性を実現することを目的としている。
本稿では属性信頼度に基づく信頼性の高いキャプション生成パイプラインを提案する。
また,多様なIDパターンをモデル化するための新しいReIDフレームワークであるNEXTを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:52:28Z) - Interpreting CLIP with Hierarchical Sparse Autoencoders [8.692675181549117]
サエマトリオシュカ(MSAE)は複数の粒度の階層的表現を同時に学習する。
MSAEは、CLIPの再構築品質とスパーシリティの間に新しい最先端のフロンティアを確立する。
論文 参考訳(メタデータ) (2025-02-27T22:39:13Z) - The Complexity of Learning Sparse Superposed Features with Feedback [2.4140387101794283]
モデルの基本となる学習特徴がエージェントからのフィードバックによって効率的に検索できるかどうかを検討する。
スパース設定で特徴行列を学習する際のフィードバックの複雑さを解析する。
この結果は,エージェントがアクティベーションを構築し,スパースシナリオにおいて強い上限を示すことを許された場合に,厳密な境界を確立する。
論文 参考訳(メタデータ) (2025-02-08T01:54:23Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文 参考訳(メタデータ) (2024-02-09T15:53:15Z) - LasUIE: Unifying Information Extraction with Latent Adaptive
Structure-aware Generative Language Model [96.889634747943]
全ての典型的な情報抽出タスク(UIE)を1つの生成言語モデル(GLM)で普遍的にモデル化し、大きな可能性を明らかにした。
UIE のための構文知識のパワーを完全に解放する構造対応 GLM を提案する。
7つのタスクにわたるIEベンチマークが12以上あり、私たちのシステムはベースラインのUIEシステムよりも大幅に改善されていることを示しています。
論文 参考訳(メタデータ) (2023-04-13T04:01:14Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。