論文の概要: Building Bridges, Not Walls -- Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution
- arxiv url: http://arxiv.org/abs/2501.18887v2
- Date: Thu, 13 Feb 2025 22:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:24.844697
- Title: Building Bridges, Not Walls -- Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution
- Title(参考訳): 橋、壁ではなく -- 特徴、データ、モデルコンポーネントの属性を統一することで解釈可能性を向上させる
- Authors: Shichang Zhang, Tessa Han, Usha Bhalla, Himabindu Lakkaraju,
- Abstract要約: 本稿では,特徴,データ,コンポーネント属性の手法が基本的類似性を共有し,それらをブリッジすることで解釈可能性の研究に役立つことを論じる。
これら3つの帰属的側面のメソッドの詳細な解析を行い、これらの明らかに異なる手法が類似したアプローチを用いており、主にコア技術よりもその観点で異なることを示す統一的な視点を示す。
- 参考スコア(独自算出の注目度): 25.096987279649436
- License:
- Abstract: The increasing complexity of AI systems has made understanding their behavior a critical challenge. Numerous methods have been developed to attribute model behavior to three key aspects: input features, training data, and internal model components. However, these attribution methods are studied and applied rather independently, resulting in a fragmented landscape of approaches and terminology. This position paper argues that feature, data, and component attribution methods share fundamental similarities, and bridging them can benefit interpretability research. We conduct a detailed analysis of successful methods of these three attribution aspects and present a unified view to demonstrate that these seemingly distinct methods employ similar approaches, such as perturbations, gradients, and linear approximations, differing primarily in their perspectives rather than core techniques. Our unified perspective enhances understanding of existing attribution methods, identifies shared concepts and challenges, makes this field more accessible to newcomers, and highlights new directions not only for attribution and interpretability but also for broader AI research, including model editing, steering, and regulation.
- Abstract(参考訳): AIシステムの複雑さが増すにつれ、彼らの行動を理解することが重要な課題となっている。
入力特徴、トレーニングデータ、内部モデルコンポーネントの3つの重要な側面にモデル振舞いを属性付けるために、多くの方法が開発されている。
しかし、これらの帰属法は比較的独立に研究され、適用され、結果として、アプローチと用語の断片化された風景が生まれる。
このポジションペーパーでは、特徴、データ、コンポーネントの属性メソッドは基本的な類似点を共有し、それらをブリッジすることで解釈可能性の研究の恩恵を受けると論じている。
これら3つの帰属的側面のメソッドの詳細な解析を行い、これらの明らかに異なる手法が摂動、勾配、線形近似などの類似した手法を用いており、主にコア技術よりもその観点で異なることを示す統一的な見解を示す。
私たちの統合された視点は、既存の属性メソッドの理解を強化し、共有された概念と課題を特定し、この領域を新参者にとってよりアクセスしやすくし、属性と解釈性だけでなく、モデル編集、ステアリング、規制を含む幅広いAI研究のための新しい方向性を強調します。
関連論文リスト
- A review on data-driven constitutive laws for solids [0.0]
この記事では、法律を発見し、エンコードし、代理し、エミュレートするための最先端のデータ駆動技術を強調します。
我々の目標は、過去数十年で開発された幅広い方法論に組織化された分類を提供することである。
論文 参考訳(メタデータ) (2024-05-06T17:33:58Z) - Toward Understanding the Disagreement Problem in Neural Network Feature Attribution [0.8057006406834466]
ニューラルネットワークは 複雑なパターンと関係を 生のデータから識別する
これらのブラックボックスモデルの内部動作を理解することは、依然として難しいが、高い意思決定には不可欠である。
我々の研究は、説明の基本的な、分布的な振る舞いを調査することによって、この混乱に対処する。
論文 参考訳(メタデータ) (2024-04-17T12:45:59Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - On the Evaluation of the Plausibility and Faithfulness of Sentiment
Analysis Explanations [2.071923272918415]
2つの角度からSAモデルの説明可能性を評価するために,異なる指標と手法を提案する。
まず,抽出した「有理数」の強度を評価し,予測結果の忠実な説明を行う。
第2に、自家製のデータセット上で、ExAI法と人的判断の一致を計測する。
論文 参考訳(メタデータ) (2022-10-13T11:29:17Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Beyond Explaining: Opportunities and Challenges of XAI-Based Model
Improvement [75.00655434905417]
説明可能な人工知能(XAI)は、高度に複雑な機械学習(ML)モデルに透明性をもたらす新たな研究分野である。
本稿では,機械学習モデルの諸特性を改善するために,XAIを実用的に応用する手法を概観する。
実験では,モデル一般化能力や推論などの特性を改善する上で,説明がどのように役立つのかを,おもちゃと現実的な設定で実証的に示す。
論文 参考訳(メタデータ) (2022-03-15T15:44:28Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。