論文の概要: Explaining Large Language Models with gSMILE
- arxiv url: http://arxiv.org/abs/2505.21657v4
- Date: Sun, 17 Aug 2025 15:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.991315
- Title: Explaining Large Language Models with gSMILE
- Title(参考訳): gSMILEによる大規模言語モデルの解説
- Authors: Zeinab Dehghani, Mohammed Naveed Akram, Koorosh Aslansefat, Adil Khan, Yiannis Papadopoulos,
- Abstract要約: gSMILEは、大規模言語モデルにおけるトークンレベルの解釈可能性のための、モデルに依存しない摂動ベースのフレームワークである。
我々は,OpenAI の GPT-3.5-turbo-instruct,Meta の LLaMA 3.1 Instruct Turbo や Anthropic の Claude 2.1 など,主要な LLM における gSMILE の評価を行った。
以上の結果から,gSMILEは人為的属性を確実に提供し,Claude 2.1は注意力に優れ,GPT-3.5は高い出力整合性を実現していることがわかった。
- 参考スコア(独自算出の注目度): 3.954413777377334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as GPT, LLaMA, and Claude achieve remarkable performance in text generation but remain opaque in their decision-making processes, limiting trust and accountability in high-stakes applications. We present gSMILE (generative SMILE), a model-agnostic, perturbation-based framework for token-level interpretability in LLMs. Extending the SMILE methodology, gSMILE uses controlled prompt perturbations, Wasserstein distance metrics, and weighted linear surrogates to identify input tokens with the most significant impact on the output. This process enables the generation of intuitive heatmaps that visually highlight influential tokens and reasoning paths. We evaluate gSMILE across leading LLMs (OpenAI's gpt-3.5-turbo-instruct, Meta's LLaMA 3.1 Instruct Turbo, and Anthropic's Claude 2.1) using attribution fidelity, attribution consistency, attribution stability, attribution faithfulness, and attribution accuracy as metrics. Results show that gSMILE delivers reliable human-aligned attributions, with Claude 2.1 excelling in attention fidelity and GPT-3.5 achieving the highest output consistency. These findings demonstrate gSMILE's ability to balance model performance and interpretability, enabling more transparent and trustworthy AI systems.
- Abstract(参考訳): GPT、LLaMA、Claudeといった大規模言語モデル(LLM)は、テキスト生成において顕著なパフォーマンスを達成しているが、意思決定プロセスでは不透明であり、ハイテイクアプリケーションにおける信頼性と説明責任を制限している。
LLMにおけるトークンレベルの解釈性のためのモデルに依存しない摂動に基づくフレームワークであるgSMILE(generative SMILE)を提案する。
SMILEの方法論を拡張したgSMILEは、制御されたプロンプト摂動、ワッサーシュタイン距離測定、重み付けされた線形サロゲートを使用して、入力トークンを出力に最も大きな影響を与えるように識別する。
このプロセスにより、影響力のあるトークンや推論パスを視覚的にハイライトする直感的なヒートマップの生成が可能になる。
我々は,主要なLLM(OpenAI's gpt-3.5-turbo-instruct, Meta's LLaMA 3.1 Instruct Turbo, Anthropic's Claude 2.1)におけるgSMILEの評価を行った。
以上の結果から,gSMILEは人間の属性を確実に提供し,Claude 2.1は注意力に優れ,GPT-3.5は高い出力一貫性を実現していることがわかった。
これらの結果は、モデルパフォーマンスと解釈可能性のバランスをとるgSMILEの能力を示し、より透明で信頼性の高いAIシステムを可能にした。
関連論文リスト
- Aligning Knowledge Graphs and Language Models for Factual Accuracy [7.205708660952737]
本稿では,ALIGNed-LLMを提案する。
我々は、TransEのようなトレーニング済みの知識グラフ埋め込み(KGE)モデルとトレーニング可能なプロジェクション層からの埋め込みを使用して、エンティティとテキストの埋め込みを調整します。
論文 参考訳(メタデータ) (2025-07-17T08:15:50Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。
微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文 参考訳(メタデータ) (2024-10-07T14:39:45Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Explaining black boxes with a SMILE: Statistical Model-agnostic
Interpretability with Local Explanations [0.1398098625978622]
機械学習(ML)の広く受け入れられる大きな障壁の1つは、信頼性である。
ほとんどのMLモデルはブラックボックスとして機能し、内部の動作は不透明で神秘的であり、それらの結論がどのように達成されたかを理解することなく、それらの結論を信頼することは困難である。
SMILEは, 統計的距離測定を応用して, 説明可能性を向上させる手法として, 従来の手法に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T12:28:00Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken
Language Understanding [13.352795145385645]
大規模な事前訓練された言語モデルは、強力な言語理解能力を示している。
複数のベンチマークで異なるサイズのChatGPTやOPTなどのモデルを評価した。
しかし、スロットフィリングではモデルが悪化し、その性能はASR誤差に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:59:26Z) - LMExplainer: Grounding Knowledge and Explaining Language Models [37.578973458651944]
GPT-4のような言語モデル(LM)は、AIアプリケーションにおいて重要であるが、不透明な意思決定プロセスは、特に安全クリティカルな領域において、ユーザの信頼を低下させる。
LMExplainerは,人間の直感的,理解可能な説明を通じて,LMの推論過程を明らかにする新しい知識基盤説明器である。
論文 参考訳(メタデータ) (2023-03-29T08:59:44Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。