論文の概要: Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics
- arxiv url: http://arxiv.org/abs/2212.01222v1
- Date: Fri, 2 Dec 2022 14:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:57:45.128752
- Title: Evaluation of FEM and MLFEM AI-explainers in Image Classification tasks
with reference-based and no-reference metrics
- Title(参考訳): 参照基準と非参照基準を用いた画像分類タスクにおけるFEMとMLFEMAI記述器の評価
- Authors: A. Zhukov, J. Benois-Pineau, R. Giot
- Abstract要約: 画像と映像の分類タスクにおけるCNNの説明のために設計された,最近提案されたポストホック説明器 FEM と MLFEM を思い出させる。
基準ベースおよび非参照メトリクスを用いて評価を行う。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The most popular methods and algorithms for AI are, for the vast majority,
black boxes. Black boxes can be an acceptable solution to unimportant problems
(in the sense of the degree of impact) but have a fatal flaw for the rest.
Therefore the explanation tools for them have been quickly developed. The
evaluation of their quality remains an open research question. In this
technical report, we remind recently proposed post-hoc explainers FEM and MLFEM
which have been designed for explanations of CNNs in image and video
classification tasks. We also propose their evaluation with reference-based and
no-reference metrics. The reference-based metrics are Pearson Correlation
coefficient and Similarity computed between the explanation maps and the ground
truth, which is represented by Gaze Fixation Density Maps obtained due to a
psycho-visual experiment. As a no-reference metric we use "stability" metric,
proposed by Alvarez-Melis and Jaakkola. We study its behaviour, consensus with
reference-based metrics and show that in case of several kind of degradations
on input images, this metric is in agreement with reference-based ones.
Therefore it can be used for evaluation of the quality of explainers when the
ground truth is not available.
- Abstract(参考訳): AIの最も一般的な方法とアルゴリズムは、ほとんどの場合、ブラックボックスである。
ブラックボックスは(衝撃の程度という意味で)重要でない問題に対する許容できる解決策であるが、他の問題には致命的な欠陥がある。
そのため、その説明ツールが急速に開発されている。
彼らの品質評価は、まだオープンな研究課題である。
本稿では,画像と映像の分類タスクにおけるCNNの説明を目的とした,ポストホックな説明器FEMとMLFEMを提案する。
また、参照ベースおよび参照なしメトリクスによる評価も提案する。
基準に基づく指標はピアソン相関係数(Pearson correlation coefficient)であり、説明地図と地上の真実の間で計算される類似性は、精神視覚実験により得られた迷路固定密度マップによって表される。
非参照計量として、Alvarez-Melis と Jaakkola によって提案された「安定」計量を用いる。
我々は,その動作,参照ベースメトリクスとのコンセンサスについて検討し,入力画像にいくつかの劣化がある場合,基準ベースメトリクスと一致していることを示す。
そのため、真理が得られていない場合、説明者の質を評価するために使用できる。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing [92.17776245159622]
Para-Refは、参照数を増やして評価ベンチマークを強化する新しい方法である。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
提案手法は, 自動評価値16の相関を+7.82%の比率で効果的に改善することができる。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Rethinking Knowledge Graph Evaluation Under the Open-World Assumption [65.20527611711697]
ほとんどの知識グラフ(KG)は不完全であり、知識グラフを自動補完する重要な研究トピックの動機となっている。
すべての未知の三つ子を偽として扱うことは、閉世界仮定(close-world assumption)と呼ばれる。
本稿では,KGCの評価を,より現実的な条件,すなわちオープンワールドの仮定の下で研究する。
論文 参考訳(メタデータ) (2022-09-19T09:01:29Z) - The Solvability of Interpretability Evaluation Metrics [7.3709604810699085]
特徴帰属法は、包括性や充足性などの指標でしばしば評価される。
本稿では,これらの指標の興味深い性質,すなわち可解性について述べる。
このビームサーチの説明器は、一般に現在の選択に匹敵するか、好適であることを示す一連の調査を提示する。
論文 参考訳(メタデータ) (2022-05-18T02:52:03Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - Metrics for saliency map evaluation of deep learning explanation methods [0.0]
我々はPetsiukらによって提案された削除領域(DAUC)と挿入領域(IAUC)のメトリクスを批判的に分析する。
これらの指標はGrad-CAM や RISE といった一般的な手法によって生成されるサリエンシマップの忠実さを評価するために設計された。
本研究は,サリエンシマップによって与えられる実際のサリエンシスコア値が無視されることを示し,スコアのランキングのみを考慮した。
論文 参考訳(メタデータ) (2022-01-31T14:59:36Z) - Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark
for AMR Graph Similarity [12.375561840897742]
従来の指標の強みを統一し,弱点を緩和する新しいAMR類似度指標を提案する。
具体的には、我々の新しいメトリクスは、コンテキスト化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。
グラフベースMR類似度指標の実証評価を支援するために,オーバートオブジェクト(BAMBOO)に基づくAMRメトリクスのベンチマークを導入する。
論文 参考訳(メタデータ) (2021-08-26T17:58:54Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。