論文の概要: Navigating the Concept Space of Language Models
- arxiv url: http://arxiv.org/abs/2603.23524v1
- Date: Fri, 06 Mar 2026 20:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.012511
- Title: Navigating the Concept Space of Language Models
- Title(参考訳): 言語モデルの概念空間をナビゲートする
- Authors: Wilson E. Marcílio-Jr, Danilo M. Eler,
- Abstract要約: 本稿では,SAE機能を対象としたポストホック探索のためのスケーラブルなインタラクティブシステムであるConcept Explorerを紹介する。
提案手法は,SAE機能埋め込み上に多分解能多様体を構築し,粗い概念クラスタからきめ細かい近傍への進行航法を可能にする。
SmolLM2から抽出したSAE機能に対するConcept Explorerの有用性を実証し,コヒーレントな高レベル構造,有意義なサブクラスタ,特異なレアな概念を明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) trained on large language model activations output thousands of features that enable mapping to human-interpretable concepts. The current practice for analyzing these features primarily relies on inspecting top-activating examples, manually browsing individual features, or performing semantic search on interested concepts, which makes exploratory discovery of concepts difficult at scale. In this paper, we present Concept Explorer, a scalable interactive system for post-hoc exploration of SAE features that organizes concept explanations using hierarchical neighborhood embeddings. Our approach constructs a multi-resolution manifold over SAE feature embeddings and enables progressive navigation from coarse concept clusters to fine-grained neighborhoods, supporting discovery, comparison, and relationship analysis among concepts. We demonstrate the utility of Concept Explorer on SAE features extracted from SmolLM2, where it reveals coherent high-level structure, meaningful subclusters, and distinctive rare concepts that are hard to identify with existing workflows.
- Abstract(参考訳): 大規模な言語モデルのアクティベーションを訓練したスパースオートエンコーダ(SAE)は、人間の解釈可能な概念へのマッピングを可能にする数千の機能を出力する。
これらの特徴を分析するための現在の実践は、主にトップアクティベートな例を検査したり、個々の特徴を手動で閲覧したり、興味ある概念のセマンティックサーチを実行することに依存し、大規模な概念の探索的発見を困難にしている。
本稿では,階層的な近傍埋め込みを用いた概念記述を整理する,SAE の機能のポストホック探索のためのスケーラブルなインタラクティブシステムであるConcept Explorerを提案する。
提案手法は,SAE機能埋め込み上に多分解能多様体を構築し,粗い概念クラスタから細粒度近傍への進行航法を可能にし,概念間の発見,比較,関係解析をサポートする。
SmolLM2から抽出したSAE機能に対するConcept Explorerの有用性を実証し、一貫性のある高レベル構造、意味のあるサブクラスタ、そして既存のワークフローと識別が難しい特異なレアな概念を明らかにする。
関連論文リスト
- PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation [58.1914505657064]
本稿では,クラスレベルのセマンティクスと空間コンテキスト間の知識干渉の課題を軽減するために,単純な並列コストアグリゲーション(PCA-Seg)パラダイムを提案する。
8つのベンチマークの実験では、PCA-Segの各並列ブロックは0.35万のパラメータしか追加せず、最先端のOSPS性能を実現している。
論文 参考訳(メタデータ) (2026-03-18T09:26:43Z) - LUCID-SAE: Learning Unified Vision-Language Sparse Codes for Interpretable Concept Discovery [14.222802170483739]
LUCIDは、画像パッチとテキストトークン表現のための共有潜在辞書を学習する視覚言語スパースオートエンコーダである。
LUCIDは、パッチレベルのグラウンド化をサポートし、クロスモーダルなニューロン対応を確立し、概念クラスタリング問題に対する堅牢性を高める、解釈可能な共有特徴をもたらす。
我々の分析では、LUCIDの共有機能は、アクション、属性、抽象概念を含む、オブジェクト以外の多様なセマンティックなカテゴリをキャプチャする。
論文 参考訳(メタデータ) (2026-02-07T02:01:25Z) - Visual Exploration of Feature Relationships in Sparse Autoencoders with Curated Concepts [8.768503486874623]
利用可能なすべての機能を同時に視覚化する試みよりも、キュレートされた概念とその対応するSAE機能を優先する集中探索フレームワークを提案する。
本稿では,トポロジに基づく視覚符号化と次元の縮小を組み合わせ,局所的・グローバル的関係を忠実に表現するインタラクティブな可視化システムを提案する。
論文 参考訳(メタデータ) (2025-11-08T15:36:57Z) - ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts [54.60525564599342]
ConceptScopeは、ビジュアルデータセットを分析するためのスケーラブルで自動化されたフレームワークである。
概念を、その意味的関連性とクラスラベルとの統計的相関に基づいて、ターゲット、コンテキスト、バイアスタイプに分類する。
既知のバイアスを確実に検出し、未発表のバイアスを発見できる。
論文 参考訳(メタデータ) (2025-10-30T06:46:17Z) - ConceptViz: A Visual Analytics Approach for Exploring Concepts in Large Language Models [18.456737929856125]
ConceptVizは、大規模言語モデル(LLM)の概念を探索するために設計された視覚分析システムである
本研究では,LLMにおける意味ある概念表現の発見と検証を合理化することで,概念Vizは解釈可能性の研究を強化することを示す。
論文 参考訳(メタデータ) (2025-09-20T04:57:20Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。