論文の概要: Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustworthy Explanations
- arxiv url: http://arxiv.org/abs/2510.17256v1
- Date: Mon, 20 Oct 2025 07:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.026568
- Title: Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustworthy Explanations
- Title(参考訳): 大規模言語モデルの説明可能性:信頼に値する説明を生み出すための機会と課題
- Authors: Shahin Atakishiyev, Housam K. B. Babiker, Jiayi Dai, Nawshad Farruque, Teruaki Hayashi, Nafisa Sadaf Hriti, Md Abed Rahman, Iain Smith, Mi-Young Kim, Osmar R. Zaïane, Randy Goebel,
- Abstract要約: 言語モデルがどのように次のトークンを予測し、コンテンツを生成するかは、一般的に人間には理解できない。
本稿では,Transformer を用いた大規模言語モデルにおける局所的説明可能性と機械論的解釈可能性について検討する。
- 参考スコア(独自算出の注目度): 5.676319658620339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have exhibited impressive performance across a broad range of downstream tasks in natural language processing. However, how a language model predicts the next token and generates content is not generally understandable by humans. Furthermore, these models often make errors in prediction and reasoning, known as hallucinations. These errors underscore the urgent need to better understand and interpret the intricate inner workings of language models and how they generate predictive outputs. Motivated by this gap, this paper investigates local explainability and mechanistic interpretability within Transformer-based large language models to foster trust in such models. In this regard, our paper aims to make three key contributions. First, we present a review of local explainability and mechanistic interpretability approaches and insights from relevant studies in the literature. Furthermore, we describe experimental studies on explainability and reasoning with large language models in two critical domains -- healthcare and autonomous driving -- and analyze the trust implications of such explanations for explanation receivers. Finally, we summarize current unaddressed issues in the evolving landscape of LLM explainability and outline the opportunities, critical challenges, and future directions toward generating human-aligned, trustworthy LLM explanations.
- Abstract(参考訳): 大規模言語モデルは、自然言語処理における幅広い下流タスクにおいて、印象的なパフォーマンスを示している。
しかし、言語モデルがどのように次のトークンを予測し、コンテンツを生成するかは、一般的に人間には理解できない。
さらに、これらのモデルはしばしば幻覚として知られる予測と推論の誤りを引き起こす。
これらの誤りは、言語モデルの内部の複雑な動作をより理解し、解釈し、どのように予測出力を生成するかという緊急の必要性を浮き彫りにする。
本稿では,トランスフォーマーを用いた大規模言語モデルにおける局所的説明可能性と機械論的解釈可能性について検討し,そのようなモデルの信頼性を高める。
この点に関して、本稿は3つの重要な貢献を目指しています。
まず,文献における局所的説明可能性と機械的解釈可能性のアプローチ,および関連研究からの知見について概説する。
さらに、医療と自律運転という2つの重要な領域において、大きな言語モデルによる説明可能性と推論に関する実験研究を行い、そのような説明の信頼関係を説明レシーバーに対して分析する。
最後に、LLM説明可能性の進化する状況における現在の未解決問題について要約し、人間に整合した信頼性のあるLCM説明を生成するための機会、重要な課題、今後の方向性について概説する。
関連論文リスト
- BELL: Benchmarking the Explainability of Large Language Models [0.0]
大規模言語モデルは自然言語処理において顕著な能力を示してきたが、意思決定プロセスは透明性を欠いていることが多い。
本稿では,大規模言語モデルの説明可能性を評価するためのベンチマーク手法であるベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2025-04-22T11:15:23Z) - LExT: Towards Evaluating Trustworthiness of Natural Language Explanations [10.77745803401336]
本稿では,自然言語の説明の信頼性を定量化し,妥当性と信条のバランスをとる枠組みを提案する。
パブリックな医療データセットを用いて、ドメインに依存しないフレームワークを医療領域に適用し、6つのモデルを評価する。
以上の結果から,信頼に値する説明を生み出す能力に有意な差異が認められた。
論文 参考訳(メタデータ) (2025-04-08T17:16:52Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。