論文の概要: Interpreting Language Models Through Concept Descriptions: A Survey
- arxiv url: http://arxiv.org/abs/2510.01048v1
- Date: Wed, 01 Oct 2025 15:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.655534
- Title: Interpreting Language Models Through Concept Descriptions: A Survey
- Title(参考訳): 概念記述による言語モデルの解釈:調査
- Authors: Nils Feldhus, Laura Kopf,
- Abstract要約: モデルコンポーネントと抽象化の概念記述の新たな分野について、初めて調査する。
我々の合成は、より厳密で因果的な評価に対する需要が増大していることを示している。
- 参考スコア(独自算出の注目度): 3.901807843411349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the decision-making processes of neural networks is a central goal of mechanistic interpretability. In the context of Large Language Models (LLMs), this involves uncovering the underlying mechanisms and identifying the roles of individual model components such as neurons and attention heads, as well as model abstractions such as the learned sparse features extracted by Sparse Autoencoders (SAEs). A rapidly growing line of work tackles this challenge by using powerful generator models to produce open-vocabulary, natural language concept descriptions for these components. In this paper, we provide the first survey of the emerging field of concept descriptions for model components and abstractions. We chart the key methods for generating these descriptions, the evolving landscape of automated and human metrics for evaluating them, and the datasets that underpin this research. Our synthesis reveals a growing demand for more rigorous, causal evaluation. By outlining the state of the art and identifying key challenges, this survey provides a roadmap for future research toward making models more transparent.
- Abstract(参考訳): ニューラルネットワークの意思決定プロセスを理解することは、機械的解釈可能性の中心的な目標である。
LLM(Large Language Models)の文脈では、基礎となるメカニズムを明らかにし、ニューロンやアテンションヘッドといった個々のモデルコンポーネントの役割を識別するだけでなく、スパースオートエンコーダ(SAE)によって抽出された学習されたスパース機能のようなモデルの抽象化も含む。
この課題に対して、強力なジェネレータモデルを使用して、これらのコンポーネントに対するオープンな語彙、自然言語の概念記述を生成する、急速に成長する作業ラインが、この課題に対処している。
本稿では,モデルコンポーネントと抽象化に関する概念記述の新たな分野について,初めて調査する。
これらの記述を生成するための重要な方法、それらを評価するための自動化されたメトリクスと人間のメトリクスの進化した展望、そしてこの研究の基盤となるデータセットをグラフ化します。
我々の合成は、より厳密で因果的な評価に対する需要が増大していることを示している。
最先端の課題の概要と重要な課題の特定によって、この調査は、モデルをより透明性のあるものにするための将来の研究のロードマップを提供する。
関連論文リスト
- From Text to Graph: Leveraging Graph Neural Networks for Enhanced Explainability in NLP [3.864700176441583]
本研究では,自然言語処理タスクにおける説明可能性を実現するための新しい手法を提案する。
自動的に文をグラフに変換し、ノードや関係を通じて意味を維持する。
実験は、与えられた分類のためのテキスト構造の中で最も重要なコンポーネントを決定するための有望な結果をもたらした。
論文 参考訳(メタデータ) (2025-04-02T18:55:58Z) - VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning [86.59849798539312]
本稿では,記号的・神経的知識表現の強みを組み合わせた一階抽象言語Neuro-Symbolic Predicatesを提案する。
提案手法は, サンプルの複雑さの向上, 分布外一般化の強化, 解釈可能性の向上を実現する。
論文 参考訳(メタデータ) (2024-10-30T16:11:05Z) - From Feature Importance to Natural Language Explanations Using LLMs with RAG [4.204990010424084]
大規模言語モデル(LLM)の応答に外部知識リポジトリを活用して,トレーサブルな質問応答を導入する。
この知識リポジトリは、高レベルの特徴、特徴の重要性、代替確率を含む、モデルの出力に関するコンテキストの詳細を含む。
社会的・因果的・選択的・コントラスト的な4つの重要な特徴を、人間の説明に関する社会科学研究から一発のプロンプトへと統合し、応答生成過程を導く。
論文 参考訳(メタデータ) (2024-07-30T17:27:20Z) - Large Language Models for Information Retrieval: A Survey [83.75872593741578]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Explainability of Text Processing and Retrieval Methods: A Survey [1.5920521545285267]
本稿では,自然言語処理と情報検索手法の説明可能性と解釈可能性について概説する。
具体的には、単語埋め込み、シーケンスモデリング、アテンションモジュール、トランスフォーマー、BERT、文書ランキングの説明に応用されたアプローチについて調査する。
論文 参考訳(メタデータ) (2022-12-14T09:25:49Z) - FACT: Learning Governing Abstractions Behind Integer Sequences [7.895232155155041]
完全なフィニシャルな記述を認める概念の学習に関する新しい見解を紹介する。
機械学習モデルによる概念理解を目的としたベンチマークタスクのセットを配置する。
知識表現と推論の研究をさらに支援するため,FACT(Finitary Abstraction Toolkit)を提案する。
論文 参考訳(メタデータ) (2022-09-20T08:20:03Z) - Neural Entity Linking: A Survey of Models Based on Deep Learning [82.43751915717225]
本調査では,2015年以降に開発されたニューラルエンティティリンク(EL)システムの包括的記述について報告する。
その目標は、ニューラルエンティティリンクシステムの設計機能を体系化し、それらのパフォーマンスを一般的なベンチマーク上の注目すべき古典的手法と比較することである。
この調査はエンティティリンクの応用に焦点をあて、最近出現した、深い事前訓練されたマスキング言語モデルを強化するユースケースに焦点を当てている。
論文 参考訳(メタデータ) (2020-05-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。