論文の概要: Interpretability Needs a New Paradigm
- arxiv url: http://arxiv.org/abs/2405.05386v2
- Date: Wed, 13 Nov 2024 01:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:50.136190
- Title: Interpretability Needs a New Paradigm
- Title(参考訳): 解釈可能性には新しいパラダイムが必要だ
- Authors: Andreas Madsen, Himabindu Lakkaraju, Siva Reddy, Sarath Chandar,
- Abstract要約: 解釈可能性(英: Interpretability)とは、人間に理解可能な言葉でモデルを説明する研究である。
この議論の核心は、それぞれのパラダイムがその説明が忠実である、すなわちモデルの振舞いに忠実であることをいかに保証するかである。
この論文の立場は、信仰を警戒しながら新しいパラダイムを考えるべきだというものである。
- 参考スコア(独自算出の注目度): 49.134097841837715
- License:
- Abstract: Interpretability is the study of explaining models in understandable terms to humans. At present, interpretability is divided into two paradigms: the intrinsic paradigm, which believes that only models designed to be explained can be explained, and the post-hoc paradigm, which believes that black-box models can be explained. At the core of this debate is how each paradigm ensures its explanations are faithful, i.e., true to the model's behavior. This is important, as false but convincing explanations lead to unsupported confidence in artificial intelligence (AI), which can be dangerous. This paper's position is that we should think about new paradigms while staying vigilant regarding faithfulness. First, by examining the history of paradigms in science, we see that paradigms are constantly evolving. Then, by examining the current paradigms, we can understand their underlying beliefs, the value they bring, and their limitations. Finally, this paper presents 3 emerging paradigms for interpretability. The first paradigm designs models such that faithfulness can be easily measured. Another optimizes models such that explanations become faithful. The last paradigm proposes to develop models that produce both a prediction and an explanation.
- Abstract(参考訳): 解釈可能性(英: Interpretability)とは、人間に理解可能な言葉でモデルを説明する研究である。
現在、解釈可能性は2つのパラダイムに分けられている: 説明されるように設計されたモデルのみが説明できると考える本質的なパラダイムと、ブラックボックスモデルを説明することができると考えるポストホックパラダイムである。
この議論の核心は、それぞれのパラダイムがその説明が忠実である、すなわちモデルの振舞いに忠実であることをいかに保証するかである。
これは、嘘だが説得力のある説明が、危険な人工知能(AI)への信頼の欠如につながるため、重要である。
この論文の立場は、信仰を警戒しながら新しいパラダイムを考えるべきだというものである。
まず、科学におけるパラダイムの歴史を調べることで、パラダイムは常に進化していることがわかる。
そして、現在のパラダイムを調べることで、彼らの根底にある信念、彼らがもたらす価値、そしてその限界を理解することができます。
最後に,解釈可能性に関する3つのパラダイムについて述べる。
第1のパラダイムは、忠実さを簡単に測定できるようなモデルを設計する。
別のモデルは、説明が忠実になるようなモデルを最適化する。
最後のパラダイムは、予測と説明の両方を生成するモデルを開発することを提案する。
関連論文リスト
- Faithful Model Explanations through Energy-Constrained Conformal
Counterfactuals [16.67633872254042]
ブラックボックスモデルを説明するための直感的で直感的な説明を提供する。
既存の作業は主に、入力データの分散方法を学ぶために代理モデルに依存しています。
そこで本研究では,モデルが許容する範囲でのみ有効な,エネルギー制約のあるコンフォーマル・カウンセリングを生成するための新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-17T08:24:44Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Overthinking the Truth: Understanding how Language Models Process False
Demonstrations [32.29658741345911]
モデルの内部表現のレンズを通して有害な模倣を研究する。
我々は「過剰思考」と「偽誘導頭部」の2つの関連する現象を同定する。
論文 参考訳(メタデータ) (2023-07-18T17:56:50Z) - Eight challenges in developing theory of intelligence [3.0349733976070024]
数学的美の優れた理論は、物理現実の新しい予測が一貫性を持って検証できるため、現在のどの観測よりも実用的である。
ここでは、この理論パラダイムに従って知性理論を開発する上での8つの課題について詳述する。
論文 参考訳(メタデータ) (2023-06-20T01:45:42Z) - Beware the Rationalization Trap! When Language Model Explainability
Diverges from our Mental Models of Language [9.501243481182351]
言語モデルは人間とは異なる言語を学び、表現する。
言語モデル説明可能性の成功を評価するためには,ユーザの言語モデルからその相違が与える影響を検討する必要がある。
論文 参考訳(メタデータ) (2022-07-14T13:26:03Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Learning to Scaffold: Optimizing Model Explanations for Teaching [74.25464914078826]
我々は3つの自然言語処理とコンピュータビジョンタスクのモデルを訓練する。
筆者らは,本フレームワークで抽出した説明文を学習した学生が,従来の手法よりもはるかに効果的に教師をシミュレートできることを発見した。
論文 参考訳(メタデータ) (2022-04-22T16:43:39Z) - Do Language Models Have Beliefs? Methods for Detecting, Updating, and
Visualizing Model Beliefs [76.6325846350907]
Dennett (1995) は、サーモスタットでさえ、信念は単なる情報状態であり、モチベーションのある状態とは切り離されているという観点から、信念を持っていると論じている。
本稿では,モデルが世界に対する信念をいつ持っているかを検出するためのアプローチについて論じるとともに,モデル信念をより誠実に更新する方法の改善について述べる。
論文 参考訳(メタデータ) (2021-11-26T18:33:59Z) - Modeling Event Plausibility with Consistent Conceptual Abstraction [29.69958315418181]
トランスフォーマビリティモデルでは,語彙階層の概念クラス間で有意な一貫性が認められないことを示す。
本稿では,モデル一貫性を強制する簡単なポストホック法を提案する。
論文 参考訳(メタデータ) (2021-04-20T21:08:32Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。