論文の概要: Domain-Filtered Knowledge Graphs from Sparse Autoencoder Features
- arxiv url: http://arxiv.org/abs/2604.23829v1
- Date: Sun, 26 Apr 2026 18:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.576833
- Title: Domain-Filtered Knowledge Graphs from Sparse Autoencoder Features
- Title(参考訳): スパースオートエンコーダ機能を用いたドメインフィルタ知識グラフ
- Authors: John Winnicki, Abeynaya Gnanasekaran, Eric Darve,
- Abstract要約: 我々は、大規模なSAE在庫から厳密なドメイン固有概念宇宙を構築する。
次に、フィルタセット上に2つの整列グラフビューを構築します。
これらのグラフビューを、ラベルのないレイアウトではなく、読みやすい知識グラフにラベル付けします。
- 参考スコア(独自算出の注目度): 2.61135281451375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) extract millions of interpretable features from a language model, but flat feature inventories aren't very useful on their own. Domain concepts get mixed with generic and weakly grounded features, while related ideas are scattered across many units, and there's no way to understand relationships between features. We address this by first constructing a strict domain-specific concept universe from a large SAE inventory using contrastive activations and a multi-stage filtering process. Next, we build two aligned graph views on the filtered set: a co-occurrence graph for corpus-level conceptual structure, organized at multiple levels of granularity, and a transcoder-based mechanism graph that links source-layer and target-layer features through sparse latent pathways. Automated edge labeling then turns these graph views into readable knowledge graphs rather than unlabeled layouts. In a case study on a biology textbook, these graphs recover coherent chapter and subchapter-level structure, reveal concepts that bridge neighboring topics, and transform messy sentence-level activity containing thousands of features into compact, readable views that illustrate the model's local activity. Taken together, this reframes a flat SAE inventory as an internal knowledge graph that converts feature-level interpretability into a global map of model knowledge and enables audits of reasoning faithfulness.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は言語モデルから数百万の解釈可能な機能を抽出しますが、フラットな機能インベントリはそれ自体ではあまり役に立ちません。
ドメインの概念は一般的な機能と弱い機能と混同され、関連するアイデアは多くのユニットに分散しており、機能間の関係を理解する方法はありません。
まず、対照的なアクティベーションと多段階フィルタリングプロセスを用いて、大規模なSAEインベントリから厳密なドメイン固有概念宇宙を構築する。
次に,複数レベルの粒度で構成されたコーパスレベルの概念構造を共起するグラフと,ソース層とターゲット層の特徴を疎遅延経路でリンクするトランスコーダベースのメカニズムグラフの2つを構築した。
自動エッジラベリングは、これらのグラフビューをラベル付けされていないレイアウトではなく、読み取り可能なナレッジグラフに変換する。
生物学教科書のケーススタディでは、これらのグラフはコヒーレントな章とサブチャプタレベルの構造を復元し、近隣のトピックを橋渡しする概念を明らかにし、何千もの特徴を含む散らかった文レベルのアクティビティを、モデルの局所的な活動を示すコンパクトで読みやすいビューに変換する。
まとめると、これはフラットなSAEインベントリを内部知識グラフとして再構成し、機能レベルの解釈可能性をモデル知識のグローバルマップに変換し、推論の忠実さの監査を可能にする。
関連論文リスト
- <SOG_k>: One LLM Token for Explicit Graph Structural Understanding [57.017902343605364]
我々は、グラフの構造を統一トークン空間内に完全に表現するために、1つの特別なトークン SOG_k> を組み込むことを提案する。
SOG_k>は、簡潔で正確な方法でLLMに理解、生成、理性を与える。
論文 参考訳(メタデータ) (2026-02-02T07:55:09Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Individual and Structural Graph Information Bottlenecks for
Out-of-Distribution Generalization [21.227825123510293]
I-GIB(Personal Graph Information Bottleneck)とS-GIB(Structure Graph Information Bottleneck)を提案する。
I-GIBは、入力グラフとその埋め込み間の相互情報を最小化することにより、無関係な情報を破棄する。
S-GIBは同時に急激な特徴を捨て、高次の視点から不変な特徴を学ぶ。
論文 参考訳(メタデータ) (2023-06-28T03:52:41Z) - Multi-task Self-distillation for Graph-based Semi-Supervised Learning [6.277952154365413]
本稿では,グラフ畳み込みネットワークに自己教師付き学習と自己蒸留を注入するマルチタスク自己蒸留フレームワークを提案する。
まず、プレテキストタスクに基づいて自己超越パイプラインを定式化し、グラフの異なるレベルの類似性をキャプチャする。
第二に、自己蒸留はモデル自体のソフトラベルを追加の監督として使用する。
論文 参考訳(メタデータ) (2021-12-02T12:43:41Z) - Multi-Level Graph Contrastive Learning [38.022118893733804]
本稿では,グラフの空間ビューを対比することで,グラフデータの堅牢な表現を学習するためのマルチレベルグラフコントラスト学習(MLGCL)フレームワークを提案する。
元のグラフは1次近似構造であり、不確実性や誤りを含むが、符号化機能によって生成された$k$NNグラフは高次近接性を保持する。
MLGCLは、7つのデータセット上の既存の最先端グラフ表現学習法と比較して有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-06T14:24:43Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer [140.72439827136085]
グラフィノノミー(Graphonomy)というグラフ推論・伝達学習フレームワークを提案する。
人間の知識とラベル分類を、局所畳み込みを超えた中間グラフ表現学習に組み込んでいる。
意味認識グラフの推論と転送を通じて、複数のドメインにおけるグローバルおよび構造化されたセマンティックコヒーレンシーを学習する。
論文 参考訳(メタデータ) (2021-01-26T08:19:03Z) - HOSE-Net: Higher Order Structure Embedded Network for Scene Graph
Generation [20.148175528691905]
本稿では,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。
また,高次構造情報を導入して部分空間の数を減らし,階層的セマンティックアグリゲーション(HSA)モジュールを提案する。
提案したHOSE-Netは、Visual GenomeとVRDの2つの人気のあるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-08-12T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。