論文の概要: Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations
- arxiv url: http://arxiv.org/abs/2505.21657v2
- Date: Fri, 13 Jun 2025 16:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 15:41:31.121855
- Title: Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations
- Title(参考訳): SMILEを用いた大規模言語モデルの説明可能性:局所的説明を伴う統計的モデルに依存しない解釈可能性
- Authors: Zeinab Dehghani, Mohammed Naveed Akram, Koorosh Aslansefat, Adil Khan,
- Abstract要約: GPT、LLAMA、Claudeといった大規模な言語モデルは、テキストを生成するのに驚くほど強力になっています。
しかし、彼らはまだブラックボックスなので、何を言うべきかをどう判断するかを理解するのは難しい。
SMILEは、これらのモデルがプロンプトの異なる部分にどのように反応するかを説明する新しい方法である。
- 参考スコア(独自算出の注目度): 4.09248237651673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models like GPT, LLAMA, and Claude have become incredibly powerful at generating text, but they are still black boxes, so it is hard to understand how they decide what to say. That lack of transparency can be problematic, especially in fields where trust and accountability matter. To help with this, we introduce SMILE, a new method that explains how these models respond to different parts of a prompt. SMILE is model-agnostic and works by slightly changing the input, measuring how the output changes, and then highlighting which words had the most impact. Create simple visual heat maps showing which parts of a prompt matter the most. We tested SMILE on several leading LLMs and used metrics such as accuracy, consistency, stability, and fidelity to show that it gives clear and reliable explanations. By making these models easier to understand, SMILE brings us one step closer to making AI more transparent and trustworthy.
- Abstract(参考訳): GPT、LLAMA、Claudeといった大規模な言語モデルは、テキストを生成するのに驚くほど強力になったが、それでもブラックボックスであるため、何を言うべきかをどう判断するかを理解するのは難しい。
透明性の欠如は、特に信頼と説明責任が重要な分野において問題となる可能性がある。
SMILEは、これらのモデルがプロンプトの異なる部分にどのように反応するかを説明する新しい手法である。
SMILEはモデルに依存しないため、入力をわずかに変更し、出力がどのように変化するかを測定し、最も影響の大きい単語をハイライトする。
プロンプトのどの部分が一番重要なのかを示す単純なビジュアルヒートマップを作成する。
SMILEをいくつかの主要なLCM上でテストし、精度、一貫性、安定性、忠実度などの指標を用いて、明確で信頼性の高い説明を提供することを示した。
これらのモデルを理解しやすくすることで、SMILEはAIをより透明で信頼性の高いものにする一歩を踏み出します。
関連論文リスト
- Addressing Explainability of Generative AI using SMILE (Statistical Model-agnostic Interpretability with Local Explanations) [0.0]
この論文では、生成モデルの説明可能性のための統一的なフレームワークであるgSMILEを紹介している。
gSMILEはテキスト入力の制御された摂動、ワッサーシュタイン距離測定、重み付き代理モデリングを採用している。
頑丈で人間に順応した属性を生成し、最先端のジェネレーティブモデルで効果的に一般化する。
論文 参考訳(メタデータ) (2026-02-01T12:54:51Z) - Grad-ELLM: Gradient-based Explanations for Decoder-only LLMs [52.15785423211181]
Grad-ELLMは、デコーダのみをベースとした大規模言語モデルのための勾配に基づく属性法である。
我々は、より公平な比較を提供する2つの忠実度指標$-Soft-NCと$-Soft-NSを導入する。
実験の結果,Grad-ELLMは他の属性法よりも優れた忠実性が得られることがわかった。
論文 参考訳(メタデータ) (2026-01-06T15:22:39Z) - Utilizing Large Language Models for Machine Learning Explainability [37.31918138232927]
本研究では,機械学習(ML)ソリューションを自律的に生成する際の,大規模言語モデル(LLM)の説明可能性について検討する。
最先端の3つのLCMは、ランダムフォレスト、XGBoost、マルチレイヤーパーセプトロン、ロング短期記憶ネットワークの4つの共通分類器のためのトレーニングパイプラインを設計するよう促される。
生成したモデルは、SHAP(SHapley Additive exPlanations)を用いた予測性能(リコール、精度、F1スコア)と説明可能性の観点から評価される。
論文 参考訳(メタデータ) (2025-10-08T11:46:23Z) - Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。
しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。
MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T15:38:42Z) - Explainable Knowledge Graph Retrieval-Augmented Generation (KG-RAG) with KG-SMILE [0.03908906925636173]
SMILE を用いた Graph RAG のトークンとコンポーネントレベルの相互運用性を提供する,メソッドに依存しない摂動に基づくフレームワークを開発した。
KG-SMILEは、生成した出力に最も影響を及ぼすグラフエンティティと関係を識別し、RAGをより透明にする。
以上の結果から,KG-SMILEはモデルの有効性と解釈可能性のバランスをとる能力を示した。
論文 参考訳(メタデータ) (2025-09-03T18:29:30Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Aligning Knowledge Graphs and Language Models for Factual Accuracy [7.205708660952737]
本稿では,ALIGNed-LLMを提案する。
我々は、TransEのようなトレーニング済みの知識グラフ埋め込み(KGE)モデルとトレーニング可能なプロジェクション層からの埋め込みを使用して、エンティティとテキストの埋め込みを調整します。
論文 参考訳(メタデータ) (2025-07-17T08:15:50Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。
微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文 参考訳(メタデータ) (2024-10-07T14:39:45Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Explaining black boxes with a SMILE: Statistical Model-agnostic
Interpretability with Local Explanations [0.1398098625978622]
機械学習(ML)の広く受け入れられる大きな障壁の1つは、信頼性である。
ほとんどのMLモデルはブラックボックスとして機能し、内部の動作は不透明で神秘的であり、それらの結論がどのように達成されたかを理解することなく、それらの結論を信頼することは困難である。
SMILEは, 統計的距離測定を応用して, 説明可能性を向上させる手法として, 従来の手法に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T12:28:00Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken
Language Understanding [13.352795145385645]
大規模な事前訓練された言語モデルは、強力な言語理解能力を示している。
複数のベンチマークで異なるサイズのChatGPTやOPTなどのモデルを評価した。
しかし、スロットフィリングではモデルが悪化し、その性能はASR誤差に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:59:26Z) - LMExplainer: Grounding Knowledge and Explaining Language Models [37.578973458651944]
GPT-4のような言語モデル(LM)は、AIアプリケーションにおいて重要であるが、不透明な意思決定プロセスは、特に安全クリティカルな領域において、ユーザの信頼を低下させる。
LMExplainerは,人間の直感的,理解可能な説明を通じて,LMの推論過程を明らかにする新しい知識基盤説明器である。
論文 参考訳(メタデータ) (2023-03-29T08:59:44Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。