論文の概要: Addressing Explainability of Generative AI using SMILE (Statistical Model-agnostic Interpretability with Local Explanations)
- arxiv url: http://arxiv.org/abs/2602.01206v1
- Date: Sun, 01 Feb 2026 12:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.660861
- Title: Addressing Explainability of Generative AI using SMILE (Statistical Model-agnostic Interpretability with Local Explanations)
- Title(参考訳): SMILEを用いた生成AIの説明可能性 (局所的説明を伴う統計的モデルに依存しない解釈可能性)
- Authors: Zeinab Dehghani,
- Abstract要約: この論文では、生成モデルの説明可能性のための統一的なフレームワークであるgSMILEを紹介している。
gSMILEはテキスト入力の制御された摂動、ワッサーシュタイン距離測定、重み付き代理モデリングを採用している。
頑丈で人間に順応した属性を生成し、最先端のジェネレーティブモデルで効果的に一般化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative artificial intelligence has enabled models capable of producing complex textual and visual outputs; however, their decision-making processes remain largely opaque, limiting trust and accountability in high-stakes applications. This thesis introduces gSMILE, a unified framework for the explainability of generative models, extending the Statistical Model-agnostic Interpretability with Local Explanations (SMILE) method to generative settings. gSMILE employs controlled perturbations of textual input, Wasserstein distance metrics, and weighted surrogate modelling to quantify and visualise how specific components of a prompt or instruction influence model outputs. Applied to Large Language Models (LLMs), gSMILE provides fine-grained token-level attribution and generates intuitive heatmaps that highlight influential tokens and reasoning pathways. In instruction-based image editing models, the exact text-perturbation mechanism is employed, allowing for the analysis of how modifications to an editing instruction impact the resulting image. Combined with a scenario-based evaluation strategy grounded in the Operational Design Domain (ODD) framework, gSMILE allows systematic assessment of model behaviour across diverse semantic and environmental conditions. To evaluate explanation quality, we define rigorous attribution metrics, including stability, fidelity, accuracy, consistency, and faithfulness, and apply them across multiple generative architectures. Extensive experiments demonstrate that gSMILE produces robust, human-aligned attributions and generalises effectively across state-of-the-art generative models. These findings highlight the potential of gSMILE to advance transparent, reliable, and responsible deployment of generative AI technologies.
- Abstract(参考訳): 生成人工知能の急速な進歩により、複雑なテキストや視覚的なアウトプットを生成できるモデルが可能になったが、その決定プロセスはほとんど不透明であり、ハイテイクなアプリケーションにおける信頼性と説明責任を制限している。
この論文は、生成モデルの説明可能性のための統一的なフレームワークであるgSMILEを導入し、統計モデルに依存しない解釈可能性と局所説明法(SMILE)を生成環境に拡張した。
gSMILEは、テキスト入力の制御された摂動、ワッサーシュタイン距離測定、重み付けされた代理モデリングを使用して、プロンプトや命令の影響のある特定のコンポーネントがどのように出力するかを定量化し視覚化する。
LLM(Large Language Models)に適用されたgSMILEは、きめ細かいトークンレベルの属性を提供し、影響のあるトークンと推論経路をハイライトする直感的なヒートマップを生成する。
命令ベースの画像編集モデルでは、正確なテキスト摂動機構が採用され、編集命令の変更が結果のイメージにどのように影響するかを分析することができる。
運用設計ドメイン(ODD)フレームワークに根ざしたシナリオベースの評価戦略と組み合わせることで、gSMILEは多様な意味と環境条件をまたいだモデル行動の体系的な評価を可能にする。
説明品質を評価するために,安定性,忠実度,正確性,一貫性,忠実度などの厳密な属性指標を定義し,複数の生成アーキテクチャに適用する。
広範囲にわたる実験により、gSMILEは、最先端の生成モデル全体にわたって、堅牢で、人間に整合した属性を生産し、効果的に一般化することを示した。
これらの知見は、生成AI技術の透明性、信頼性、責任ある展開を促進するgSMILEの可能性を浮き彫りにしている。
関連論文リスト
- How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - Explaining Machine Learning Predictive Models through Conditional Expectation Methods [0.0]
MUCEは、特徴的相互作用から予測変化を捉えるために設計された局所的説明可能性のモデルに依存しない手法である。
安定性と不確実性の2つの定量的指標は、局所的な振る舞いを要約し、モデルの信頼性を評価する。
その結果、MUCEは複雑な局所モデル挙動を効果的に捉え、安定性と不確実性指標は予測信頼性に有意義な洞察を与えることが示された。
論文 参考訳(メタデータ) (2026-01-12T08:34:36Z) - SAGE: An Agentic Explainer Framework for Interpreting SAE Features in Language Models [37.102387880457535]
大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、その内部メカニズムはほとんど不透明である。
スパースオートエンコーダ(SAE)は、LLM表現をより解釈可能な機能に分解するための有望なツールとして登場した。
本稿では,SAGE(SAE AGentic Explainer)というエージェントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-25T20:14:29Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。