論文の概要: On Quantitative Evaluations of Counterfactuals
- arxiv url: http://arxiv.org/abs/2111.00177v1
- Date: Sat, 30 Oct 2021 05:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:26:17.484970
- Title: On Quantitative Evaluations of Counterfactuals
- Title(参考訳): 反事実の定量的評価について
- Authors: Frederik Hvilsh{\o}j and Alexandros Iosifidis and Ira Assent
- Abstract要約: 本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
- 参考スコア(独自算出の注目度): 88.42660013773647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As counterfactual examples become increasingly popular for explaining
decisions of deep learning models, it is essential to understand what
properties quantitative evaluation metrics do capture and equally important
what they do not capture. Currently, such understanding is lacking, potentially
slowing down scientific progress. In this paper, we consolidate the work on
evaluating visual counterfactual examples through an analysis and experiments.
We find that while most metrics behave as intended for sufficiently simple
datasets, some fail to tell the difference between good and bad counterfactuals
when the complexity increases. We observe experimentally that metrics give good
scores to tiny adversarial-like changes, wrongly identifying such changes as
superior counterfactual examples. To mitigate this issue, we propose two new
metrics, the Label Variation Score and the Oracle score, which are both less
vulnerable to such tiny changes. We conclude that a proper quantitative
evaluation of visual counterfactual examples should combine metrics to ensure
that all aspects of good counterfactuals are quantified.
- Abstract(参考訳): 深層学習モデルの決定を説明する上で,反実例がますます人気になっているため,定量的評価指標がどのような特性を捉えるのかを理解することが不可欠である。
現在、そのような理解は欠如しており、科学の進歩を遅くしている可能性がある。
本稿では,分析と実験を通じて視覚的対実例を評価する作業を統合する。
ほとんどのメトリクスは十分な単純なデータセットを意図して振る舞うが、複雑性が大きくなると、良い結果と悪い結果の違いを判断できないものもいる。
測定値が小さな敵様の変化に対してよいスコアを与えることを実験的に観察し、そのような変化を優れた対実例として正しく識別する。
この問題を軽減するため、私たちはラベル変動スコアとoracleスコアという2つの新しいメトリクスを提案しました。
視覚的対実例の適切な定量的評価は、優れた対実例のすべての側面を定量化するためにメトリクスを組み合わせるべきであると結論付けている。
関連論文リスト
- Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation [21.650619533772232]
「本研究は、要約文の表層的属性が事実性を予測するのに十分であるか否かを調査する。」
そして, 実測値が矛盾した要約の事実修正にどのように反応するかを評価し, 有意義な改善を示すものはごくわずかであることを確認した。
これらの知見に触発されて、生成した要約に無害な文を付加することにより、(最も)自動的事実性指標、すなわち、確実に事実性スコアをインフレーションすることができることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:15:15Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Men Also Do Laundry: Multi-Attribute Bias Amplification [2.492300648514129]
コンピュータビジョンシステムは再生だけでなく、有害な社会的バイアスを増幅している。
マルチ属性バイアス増幅という新しい指標を提案する。
提案手法は,COCOおよびImsituデータセットにおける性別バイアス増幅の分析を通じて検証する。
論文 参考訳(メタデータ) (2022-10-21T12:50:15Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z) - Rethinking Automatic Evaluation in Sentence Simplification [10.398614920404727]
文の簡略化に取り組むためのQuestEvalの簡単な修正を提案します。
我々は,後者がBLEUやSARIといった標準指標よりも優れた,最先端の相関関係が得られることを示す。
評価された単純化のコーパスを新たにリリースし,今回はシステムが生成するのではなく,人間が記述した。
論文 参考訳(メタデータ) (2021-04-15T16:13:50Z) - Measuring Disentanglement: A Review of Metrics [2.959278299317192]
データの変動要因を解き放つことを学ぶことは、AIにとって重要な問題です。
我々は,すべての指標を介入型,予測型,情報型という3つの家系に分類する新しい分類法を提案する。
幅広い実験を行い、表現特性を分離し、様々な側面におけるすべてのメトリクスを比較する。
論文 参考訳(メタデータ) (2020-12-16T21:28:25Z) - Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。
統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。
結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文 参考訳(メタデータ) (2020-11-04T21:41:34Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。