論文の概要: Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures
- arxiv url: http://arxiv.org/abs/2604.16042v1
- Date: Fri, 17 Apr 2026 13:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.929403
- Title: Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures
- Title(参考訳): 大規模言語モデルの内在的解釈可能性に向けて:設計原理とアーキテクチャに関する調査
- Authors: Yutong Gao, Qinglin Meng, Yuan Zhou, Liangming Pan,
- Abstract要約: モデルアーキテクチャや計算に直接透過性を構築する本質的な解釈可能性(Intrinsic Interpretability)は、有望な代替手段として現れている。
本稿では,大規模言語モデルにおける内在的解釈可能性の最近の進歩を体系的に概観する。
- 参考スコア(独自算出の注目度): 37.785583281358875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have achieved strong performance across many NLP tasks, their opaque internal mechanisms hinder trustworthiness and safe deployment. Existing surveys in explainable AI largely focus on post-hoc explanation methods that interpret trained models through external approximations. In contrast, intrinsic interpretability, which builds transparency directly into model architectures and computations, has recently emerged as a promising alternative. This paper presents a systematic review of the recent advances in intrinsic interpretability for LLMs, categorizing existing approaches into five design paradigms: functional transparency, concept alignment, representational decomposability, explicit modularization, and latent sparsity induction. We further discuss open challenges and outline future research directions in this emerging field. The paper list is available at: https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は多くのNLPタスクで高いパフォーマンスを実現しているが、その不透明な内部メカニズムは信頼性と安全なデプロイメントを妨げる。
説明可能なAIの既存の調査は、主に、外部近似を通じてトレーニングされたモデルを解釈するポストホックな説明方法に焦点を当てている。
対照的に、モデルアーキテクチャや計算に直接透過性を構築する内在的解釈可能性(intrinsic interpretability)は、最近、有望な代替手段として登場した。
本稿では,従来のアプローチを,機能的透明性,概念的整合性,表現的分解性,明示的モジュール化,潜時空間性誘導という5つの設計パラダイムに分類する。
オープンな課題をさらに議論し、この新興分野における今後の研究の方向性について概説する。
ペーパーリストは以下の通りである。 https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs。
関連論文リスト
- Applied Explainability for Large Language Models: A Comparative Study [0.0]
本稿では,統合グラディエント,アテンションロールアウト,SHAPの3つの説明可能性技術の比較を行った。
その結果、勾配に基づく帰属はより安定で直感的な説明を提供することが示された。
作業は説明可能性メソッド間の重要なトレードオフを強調し、決定的な説明よりも診断ツールとしての役割を強調します。
論文 参考訳(メタデータ) (2026-04-15T13:07:29Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models [50.34089812436633]
大規模言語モデル(LLM)は自然言語処理を変換しているが、その内部メカニズムはほとんど不透明である。
機械的解釈性は、LLMの内部動作を理解する手段として、研究コミュニティから大きな注目を集めている。
スパースオートエンコーダ(SAE)は、LLM内の複雑な重畳された機能をより解釈可能なコンポーネントに分解する能力のために、将来性のある方法として登場した。
論文 参考訳(メタデータ) (2025-03-07T17:38:00Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Retrieval-Augmented Semantic Parsing: Improving Generalization with Lexical Knowledge [6.948555996661213]
本稿では,Retrieval-Augmented Semantic Parsing (RASP)を紹介する。
実験の結果,LLMはセマンティック解析において,従来のエンコーダ・デコーダベースラインよりも優れていることがわかった。
RASPはさらに、目に見えない概念を予測する能力を強化し、アウト・オブ・ディストリビューションの概念で以前のモデルのパフォーマンスをほぼ2倍にします。
論文 参考訳(メタデータ) (2024-12-13T15:30:20Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Proto-lm: A Prototypical Network-Based Framework for Built-in
Interpretability in Large Language Models [27.841725567976315]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させてきたが、その解釈可能性の欠如が大きな関心事となっている。
本稿では,LLMが即座に解釈可能な埋め込みを学習できるネットワークベースのホワイトボックスフレームワークであるproto-lmを紹介する。
提案手法の適用性と解釈性は,幅広いNLPタスクの実験を通じて実証され,性能を犠牲にすることなく解釈可能なモデルを作成する新たな可能性を示す。
論文 参考訳(メタデータ) (2023-11-03T05:55:32Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。