論文の概要: Towards Unified Attribution in Explainable AI, Data-Centric AI, and Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2501.18887v3
- Date: Thu, 29 May 2025 16:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 20:45:56.864107
- Title: Towards Unified Attribution in Explainable AI, Data-Centric AI, and Mechanistic Interpretability
- Title(参考訳): 説明可能なAI、データ中心AI、機械的解釈可能性における統一属性に向けて
- Authors: Shichang Zhang, Tessa Han, Usha Bhalla, Himabindu Lakkaraju,
- Abstract要約: 私たちは、機能、データ、コンポーネントの属性メソッドが基本的な類似点を共有しており、それらの統一された見解は、解釈可能性とより広範なAI研究の両方に利益があると主張している。
まず,これら3種類の属性に対する一般的な手法を解析し,それぞれが類似した手法を用いていることを示す統一的な視点を提示する。
そして、この統一された視点が、既存の帰属方法の理解を高め、これらの方法の共通概念と評価基準を強調し、共通の課題に対処し、クロス帰属イノベーションを促進することによって、解釈可能性研究の両面での新しい研究方向へと導くことを実証する。
- 参考スコア(独自算出の注目度): 25.096987279649436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing complexity of AI systems has made understanding their behavior critical. Numerous interpretability methods have been developed to attribute model behavior to three key aspects: input features, training data, and internal model components, which emerged from explainable AI, data-centric AI, and mechanistic interpretability, respectively. However, these attribution methods are studied and applied rather independently, resulting in a fragmented landscape of methods and terminology. This position paper argues that feature, data, and component attribution methods share fundamental similarities, and a unified view of them benefits both interpretability and broader AI research. To this end, we first analyze popular methods for these three types of attributions and present a unified view demonstrating that these seemingly distinct methods employ similar techniques (such as perturbations, gradients, and linear approximations) over different aspects and thus differ primarily in their perspectives rather than techniques. Then, we demonstrate how this unified view enhances understanding of existing attribution methods, highlights shared concepts and evaluation criteria among these methods, and leads to new research directions both in interpretability research, by addressing common challenges and facilitating cross-attribution innovation, and in AI more broadly, with applications in model editing, steering, and regulation.
- Abstract(参考訳): AIシステムの複雑さが増大するにつれて、その振る舞いを理解することが重要になっている。
入力特徴、トレーニングデータ、そして、それぞれ説明可能なAI、データ中心AI、機械的解釈可能性から生まれた内部モデルコンポーネントである。
しかし、これらの帰属法は比較的独立に研究され、適用され、結果としてメソッドや用語の断片化された風景が生まれる。
このポジションペーパーでは、特徴、データ、コンポーネントの属性メソッドは基本的な類似点を共有しており、それらの統一された見解は、解釈可能性とより広範なAI研究の両方に恩恵をもたらすと論じている。
そこで本研究では,これら3種類の属性に対する一般的な手法をまず分析し,それらと類似した手法(摂動,勾配,線形近似など)を異なる側面で用いていることを示す統一的な視点を示す。
そして、この統一された視点が、既存の帰属方法の理解を高め、これらの方法間の共有概念と評価基準を強調し、共通の課題に対処し、横断的帰属イノベーションを促進することによって、解釈可能性研究と、モデル編集、ステアリング、規制の応用により、AIにおける新たな研究方向性を導くことを実証する。
関連論文リスト
- How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールである
この研究において、我々はこの概念に挑戦する経験的証拠を提示する。
トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2025-03-01T22:25:11Z) - Exploring the Technology Landscape through Topic Modeling, Expert Involvement, and Reinforcement Learning [0.48342038441006807]
本研究では,特定の技術分野の進歩を探求する手法を提案する。
トピックモデリング、エキスパートインプット、強化学習(RL)を組み合わせる。
このフレームワークは、進化する技術的景観を探索するための堅牢なツールを提供する。
論文 参考訳(メタデータ) (2025-01-22T22:18:50Z) - A review on data-driven constitutive laws for solids [0.0]
この記事では、法律を発見し、エンコードし、代理し、エミュレートするための最先端のデータ駆動技術を強調します。
我々の目標は、過去数十年で開発された幅広い方法論に組織化された分類を提供することである。
論文 参考訳(メタデータ) (2024-05-06T17:33:58Z) - Toward Understanding the Disagreement Problem in Neural Network Feature Attribution [0.8057006406834466]
ニューラルネットワークは 複雑なパターンと関係を 生のデータから識別する
これらのブラックボックスモデルの内部動作を理解することは、依然として難しいが、高い意思決定には不可欠である。
我々の研究は、説明の基本的な、分布的な振る舞いを調査することによって、この混乱に対処する。
論文 参考訳(メタデータ) (2024-04-17T12:45:59Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - On the Evaluation of the Plausibility and Faithfulness of Sentiment
Analysis Explanations [2.071923272918415]
2つの角度からSAモデルの説明可能性を評価するために,異なる指標と手法を提案する。
まず,抽出した「有理数」の強度を評価し,予測結果の忠実な説明を行う。
第2に、自家製のデータセット上で、ExAI法と人的判断の一致を計測する。
論文 参考訳(メタデータ) (2022-10-13T11:29:17Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Beyond Explaining: Opportunities and Challenges of XAI-Based Model
Improvement [75.00655434905417]
説明可能な人工知能(XAI)は、高度に複雑な機械学習(ML)モデルに透明性をもたらす新たな研究分野である。
本稿では,機械学習モデルの諸特性を改善するために,XAIを実用的に応用する手法を概観する。
実験では,モデル一般化能力や推論などの特性を改善する上で,説明がどのように役立つのかを,おもちゃと現実的な設定で実証的に示す。
論文 参考訳(メタデータ) (2022-03-15T15:44:28Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。