Fugu-MT 論文翻訳(概要): Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention

論文の概要: Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention

arxiv url: http://arxiv.org/abs/2312.15033v1
Date: Fri, 22 Dec 2023 19:55:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 20:11:22.651038
Title: Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention
Title（参考訳）: 解釈可能な推論時間干渉によるLLMの空間誘導ホロスティック説明法
Authors: Zhen Tan, Tianlong Chen, Zhenyu Zhang, Huan Liu
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
参考スコア（独自算出の注目度）: 53.896974148579346
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have achieved unprecedented breakthroughs in various natural language processing domains. However, the enigmatic ``black-box'' nature of LLMs remains a significant challenge for interpretability, hampering transparent and accountable applications. While past approaches, such as attention visualization, pivotal subnetwork extraction, and concept-based analyses, offer some insight, they often focus on either local or global explanations within a single dimension, occasionally falling short in providing comprehensive clarity. In response, we propose a novel methodology anchored in sparsity-guided techniques, aiming to provide a holistic interpretation of LLMs. Our framework, termed SparseCBM, innovatively integrates sparsity to elucidate three intertwined layers of interpretation: input, subnetwork, and concept levels. In addition, the newly introduced dimension of interpretable inference-time intervention facilitates dynamic adjustments to the model during deployment. Through rigorous empirical evaluations on real-world datasets, we demonstrate that SparseCBM delivers a profound understanding of LLM behaviors, setting it apart in both interpreting and ameliorating model inaccuracies. Codes are provided in supplements.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。しかし、llmsの謎めいた「ブラックボックス」の性質は、透過的かつ説明可能な応用を妨げる、解釈可能性にとって重要な課題である。注目の可視化、重要なサブネットワーク抽出、概念に基づく分析といった過去のアプローチは、いくつかの洞察を与えるが、彼らはしばしば1次元内の局所的またはグローバルな説明に焦点を合わせ、時には包括的明確性の提供に不足する。そこで本研究では,LLMの全体的解釈を目的とし,空間性誘導技術に係わる新たな方法論を提案する。我々のフレームワークは、SparseCBMと呼ばれ、空間性を革新的に統合し、インプット、サブネットワーク、コンセプトレベルという3つの相互解釈層を解明する。さらに、新たに導入された解釈可能な推論時間介入の次元は、展開中のモデルに対する動的調整を容易にする。実世界のデータセットに対する厳密な経験的評価を通じて、SparseCBMはLLMの振る舞いを深く理解し、モデルの不正確な解釈と改善の両面で分離することを実証した。コードはサプリメントで提供される。

関連論文リスト

A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models [40.67240575271987]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その内部メカニズムはほとんど不透明である。機械的解釈性は、LLMの内部動作を理解する手段として、研究コミュニティから大きな注目を集めている。スパースオートエンコーダ(SAE)は、LLM内の複雑な重畳された機能をより解釈可能なコンポーネントに分解する能力のために、将来性のある方法として登場した。
論文参考訳（メタデータ） (2025-03-07T17:38:00Z)
SEER: Self-Explainability Enhancement of Large Language Models' Representations [18.840860385644316]
大規模言語モデル(LLM)を説明する自己説明法SEERを提案する。本稿では、同じ概念を集約し、表現空間における異なる概念を分離することにより、LLMの説明可能性を高める自己説明法SEERを提案する。自己説明型LLMが説明可能性と性能を一貫した改善を達成するための信頼性関連タスクへのSEERの適用について紹介する。
論文参考訳（メタデータ） (2025-02-07T13:25:33Z)
Variational Language Concepts for Interpreting Foundation Language Models [14.660247623976673]
本稿では,VAriational Language Concept(Variational Language Concept)と呼ばれる変分ベイズ的フレームワークを提案する。我々の理論解析により,我々のVALCはFLM予測の解釈に最適な言語概念を見出した。いくつかの実世界のデータセットにおける実験結果から,本手法がFLMの概念解釈に有効であることが示された。
論文参考訳（メタデータ） (2024-10-04T23:05:19Z)
A Law of Next-Token Prediction in Large Language Models [30.265295018979078]
我々は,事前学習された大規模言語モデルにおいて,中間層を経由した文脈化トークン埋め込みの学習を規定する,正確かつ定量的な法則を導入する。その結果, 各層は最下層から最上層までの予測精度の向上に等しく寄与していることがわかった。
論文参考訳（メタデータ） (2024-08-24T02:48:40Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
From Understanding to Utilization: A Survey on Explainability for Large Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文参考訳（メタデータ） (2024-01-23T16:09:53Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
Proto-lm: A Prototypical Network-Based Framework for Built-in Interpretability in Large Language Models [27.841725567976315]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させてきたが、その解釈可能性の欠如が大きな関心事となっている。本稿では,LLMが即座に解釈可能な埋め込みを学習できるネットワークベースのホワイトボックスフレームワークであるproto-lmを紹介する。提案手法の適用性と解釈性は,幅広いNLPタスクの実験を通じて実証され,性能を犠牲にすることなく解釈可能なモデルを作成する新たな可能性を示す。
論文参考訳（メタデータ） (2023-11-03T05:55:32Z)
MAGNIFICo: Evaluating the In-Context Learning Ability of Large Language Models to Generalize to Novel Interpretations [37.13707912132472]
人間は言語表現に新しい解釈を割り当てる素晴らしい能力を持っている。大きな言語モデル(LLM)は知識の切り離しを持ち、何度も微調整を繰り返すのに費用がかかる。我々は,LLMが文脈内学習を用いて新しい解釈を習得する能力を体系的に分析する。
論文参考訳（メタデータ） (2023-10-18T00:02:38Z)
Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (2023-09-02T22:14:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。