論文の概要: Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics
- arxiv url: http://arxiv.org/abs/2212.01222v1
- Date: Fri, 2 Dec 2022 14:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:57:45.128752
- Title: Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics
- Title(参考訳): 参照基準と非参照基準を用いた画像分類タスクにおけるFEMとMLFEMAI記述器の評価
- Authors: A. Zhukov, J. Benois-Pineau, R. Giot
- Abstract要約: 画像と映像の分類タスクにおけるCNNの説明のために設計された,最近提案されたポストホック説明器 FEM と MLFEM を思い出させる。
基準ベースおよび非参照メトリクスを用いて評価を行う。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The most popular methods and algorithms for AI are, for the vast majority,
black boxes. Black boxes can be an acceptable solution to unimportant problems
(in the sense of the degree of impact) but have a fatal flaw for the rest.
Therefore the explanation tools for them have been quickly developed. The
evaluation of their quality remains an open research question. In this
technical report, we remind recently proposed post-hoc explainers FEM and MLFEM
which have been designed for explanations of CNNs in image and video
classification tasks. We also propose their evaluation with reference-based and
no-reference metrics. The reference-based metrics are Pearson Correlation
coefficient and Similarity computed between the explanation maps and the ground
truth, which is represented by Gaze Fixation Density Maps obtained due to a
psycho-visual experiment. As a no-reference metric we use "stability" metric,
proposed by Alvarez-Melis and Jaakkola. We study its behaviour, consensus with
reference-based metrics and show that in case of several kind of degradations
on input images, this metric is in agreement with reference-based ones.
Therefore it can be used for evaluation of the quality of explainers when the
ground truth is not available.
- Abstract(参考訳): AIの最も一般的な方法とアルゴリズムは、ほとんどの場合、ブラックボックスである。
ブラックボックスは(衝撃の程度という意味で)重要でない問題に対する許容できる解決策であるが、他の問題には致命的な欠陥がある。
そのため、その説明ツールが急速に開発されている。
彼らの品質評価は、まだオープンな研究課題である。
本稿では,画像と映像の分類タスクにおけるCNNの説明を目的とした,ポストホックな説明器FEMとMLFEMを提案する。
また、参照ベースおよび参照なしメトリクスによる評価も提案する。
基準に基づく指標はピアソン相関係数(Pearson correlation coefficient)であり、説明地図と地上の真実の間で計算される類似性は、精神視覚実験により得られた迷路固定密度マップによって表される。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
我々は,その動作,参照ベースメトリクスとのコンセンサスについて検討し,入力画像にいくつかの劣化がある場合,基準ベースメトリクスと一致していることを示す。
そのため、真理が得られていない場合、説明者の質を評価するために使用できる。
関連論文リスト
- Classification Metrics for Image Explanations: Towards Building Reliable XAI-Evaluations [0.24578723416255752]
解像度法は、入力画像に対して(超)画素単位の特徴属性スコアを提供する。
新たな評価指標を開発し,イメージネット上で一般的な評価手法をベンチマークした。
心理測定テストの概念に基づく,そのような指標の信頼性評価手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:37:50Z) - A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice [6.091702876917282]
分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
論文 参考訳(メタデータ) (2024-04-25T18:12:43Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Rethinking Knowledge Graph Evaluation Under the Open-World Assumption [65.20527611711697]
ほとんどの知識グラフ(KG)は不完全であり、知識グラフを自動補完する重要な研究トピックの動機となっている。
すべての未知の三つ子を偽として扱うことは、閉世界仮定(close-world assumption)と呼ばれる。
本稿では,KGCの評価を,より現実的な条件,すなわちオープンワールドの仮定の下で研究する。
論文 参考訳(メタデータ) (2022-09-19T09:01:29Z) - The Solvability of Interpretability Evaluation Metrics [7.3709604810699085]
特徴帰属法は、包括性や充足性などの指標でしばしば評価される。
本稿では,これらの指標の興味深い性質,すなわち可解性について述べる。
このビームサーチの説明器は、一般に現在の選択に匹敵するか、好適であることを示す一連の調査を提示する。
論文 参考訳(メタデータ) (2022-05-18T02:52:03Z) - Metrics for saliency map evaluation of deep learning explanation methods [0.0]
我々はPetsiukらによって提案された削除領域(DAUC)と挿入領域(IAUC)のメトリクスを批判的に分析する。
これらの指標はGrad-CAM や RISE といった一般的な手法によって生成されるサリエンシマップの忠実さを評価するために設計された。
本研究は,サリエンシマップによって与えられる実際のサリエンシスコア値が無視されることを示し,スコアのランキングのみを考慮した。
論文 参考訳(メタデータ) (2022-01-31T14:59:36Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。