論文の概要: Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations
- arxiv url: http://arxiv.org/abs/2505.21657v1
- Date: Tue, 27 May 2025 18:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.232007
- Title: Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations
- Title(参考訳): SMILEを用いた大規模言語モデルの説明可能性:局所的説明を伴う統計的モデルに依存しない解釈可能性
- Authors: Zeinab Dehghani, Koorosh Aslansefat, Adil Khan, Mohammed Naveed Akram,
- Abstract要約: GPT、LLAMA、Claudeといった大規模な言語モデルは、テキストを生成するのに驚くほど強力になっています。
しかし、彼らはまだブラックボックスなので、何を言うべきかをどう判断するかを理解するのは難しい。
SMILEは、これらのモデルがプロンプトの異なる部分にどのように反応するかを説明する新しい方法である。
- 参考スコア(独自算出の注目度): 4.09248237651673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models like GPT, LLAMA, and Claude have become incredibly powerful at generating text, but they are still black boxes, so it is hard to understand how they decide what to say. That lack of transparency can be problematic, especially in fields where trust and accountability matter. To help with this, we introduce SMILE, a new method that explains how these models respond to different parts of a prompt. SMILE is model-agnostic and works by slightly changing the input, measuring how the output changes, and then highlighting which words had the most impact. Create simple visual heat maps showing which parts of a prompt matter the most. We tested SMILE on several leading LLMs and used metrics such as accuracy, consistency, stability, and fidelity to show that it gives clear and reliable explanations. By making these models easier to understand, SMILE brings us one step closer to making AI more transparent and trustworthy.
- Abstract(参考訳): GPT、LLAMA、Claudeといった大規模な言語モデルは、テキストを生成するのに驚くほど強力になったが、それでもブラックボックスであるため、何を言うべきかをどう判断するかを理解するのは難しい。
透明性の欠如は、特に信頼と説明責任が重要な分野において問題となる可能性がある。
SMILEは、これらのモデルがプロンプトの異なる部分にどのように反応するかを説明する新しい手法である。
SMILEはモデルに依存しないため、入力をわずかに変更し、出力がどのように変化するかを測定し、最も影響の大きい単語をハイライトする。
プロンプトのどの部分が一番重要なのかを示す単純なビジュアルヒートマップを作成する。
SMILEをいくつかの主要なLCM上でテストし、精度、一貫性、安定性、忠実度などの指標を用いて、明確で信頼性の高い説明を提供することを示した。
これらのモデルを理解しやすくすることで、SMILEはAIをより透明で信頼性の高いものにする一歩を踏み出します。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。
微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文 参考訳(メタデータ) (2024-10-07T14:39:45Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Explaining black boxes with a SMILE: Statistical Model-agnostic
Interpretability with Local Explanations [0.1398098625978622]
機械学習(ML)の広く受け入れられる大きな障壁の1つは、信頼性である。
ほとんどのMLモデルはブラックボックスとして機能し、内部の動作は不透明で神秘的であり、それらの結論がどのように達成されたかを理解することなく、それらの結論を信頼することは困難である。
SMILEは, 統計的距離測定を応用して, 説明可能性を向上させる手法として, 従来の手法に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T12:28:00Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken
Language Understanding [13.352795145385645]
大規模な事前訓練された言語モデルは、強力な言語理解能力を示している。
複数のベンチマークで異なるサイズのChatGPTやOPTなどのモデルを評価した。
しかし、スロットフィリングではモデルが悪化し、その性能はASR誤差に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:59:26Z) - LMExplainer: Grounding Knowledge and Explaining Language Models [37.578973458651944]
GPT-4のような言語モデル(LM)は、AIアプリケーションにおいて重要であるが、不透明な意思決定プロセスは、特に安全クリティカルな領域において、ユーザの信頼を低下させる。
LMExplainerは,人間の直感的,理解可能な説明を通じて,LMの推論過程を明らかにする新しい知識基盤説明器である。
論文 参考訳(メタデータ) (2023-03-29T08:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。