論文の概要: ConceptViz: A Visual Analytics Approach for Exploring Concepts in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.20376v1
- Date: Sat, 20 Sep 2025 04:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.475773
- Title: ConceptViz: A Visual Analytics Approach for Exploring Concepts in Large Language Models
- Title(参考訳): ConceptViz: 大規模言語モデルにおける概念探索のためのビジュアル分析アプローチ
- Authors: Haoxuan Li, Zhen Wen, Qiqi Jiang, Chenxiao Li, Yuwei Wu, Yuchen Yang, Yiyao Wang, Xiuqi Huang, Minfeng Zhu, Wei Chen,
- Abstract要約: ConceptVizは、大規模言語モデル(LLM)の概念を探索するために設計された視覚分析システムである
本研究では,LLMにおける意味ある概念表現の発見と検証を合理化することで,概念Vizは解釈可能性の研究を強化することを示す。
- 参考スコア(独自算出の注目度): 18.456737929856125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance across a wide range of natural language tasks. Understanding how LLMs internally represent knowledge remains a significant challenge. Despite Sparse Autoencoders (SAEs) have emerged as a promising technique for extracting interpretable features from LLMs, SAE features do not inherently align with human-understandable concepts, making their interpretation cumbersome and labor-intensive. To bridge the gap between SAE features and human concepts, we present ConceptViz, a visual analytics system designed for exploring concepts in LLMs. ConceptViz implements a novel dentification => Interpretation => Validation pipeline, enabling users to query SAEs using concepts of interest, interactively explore concept-to-feature alignments, and validate the correspondences through model behavior verification. We demonstrate the effectiveness of ConceptViz through two usage scenarios and a user study. Our results show that ConceptViz enhances interpretability research by streamlining the discovery and validation of meaningful concept representations in LLMs, ultimately aiding researchers in building more accurate mental models of LLM features. Our code and user guide are publicly available at https://github.com/Happy-Hippo209/ConceptViz.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲の自然言語タスクで顕著なパフォーマンスを実現している。
LLMが内部的に知識をどのように表現するかを理解することは、依然として重要な課題である。
Sparse Autoencoders (SAEs) はLLMから解釈可能な特徴を抽出するための有望な手法として登場したが、SAEの特徴は本質的に人間の理解できない概念と一致せず、解釈が煩雑で労働集約的である。
SAE特徴と人間の概念のギャップを埋めるために,LLMの概念を探索するための視覚分析システムであるConceptVizを提案する。
ConceptViz は新規なデンティフィケーション => 解釈 => 検証パイプラインを実装しており、ユーザが興味のある概念を使ってSAEに問い合わせ、コンセプトから機能へのアライメントをインタラクティブに探索し、モデルの振る舞い検証を通じて対応を検証することができる。
本研究では,2つの利用シナリオとユーザスタディを通じて,ConceptVizの有効性を実証する。
以上の結果から,LLMにおける意味ある概念表現の発見と検証を合理化し,より正確なLLM特徴の精神モデル構築を支援することにより,ConceptVizは解釈可能性の研究を強化することが示唆された。
私たちのコードとユーザガイドはhttps://github.com/Happy-Hippo209/ConceptViz.comで公開されています。
関連論文リスト
- Probe by Gaming: A Game-based Benchmark for Assessing Conceptual Knowledge in LLMs [17.753896112412942]
CK-Arenaは、Undercoverゲーム上に開発されたマルチエージェントインタラクションゲームである。
対話的な設定で概念を推論するために,大規模言語モデルの能力を評価するように設計されている。
CK-Arenaは動的環境における概念推論を評価するためのスケーラブルで現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-05-23T06:06:28Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Self-Evolving Visual Concept Library using Vision-Language Critics [38.15146001218907]
手動による定義が労働集約的であるため、効果的なビジュアル概念ライブラリの構築は困難である。
我々のアプローチであるESCHERは、視覚概念を反復的に発見し、改善するためのライブラリ学習の視点を採っている。
我々は、ゼロショット、少数ショット、微調整の視覚的分類タスクのための概念ライブラリをESCHERが学習できることを実証的に示す。
論文 参考訳(メタデータ) (2025-03-31T19:47:55Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。