論文の概要: VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives
- arxiv url: http://arxiv.org/abs/2206.11212v1
- Date: Wed, 22 Jun 2022 17:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 13:37:04.371177
- Title: VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives
- Title(参考訳): visfis:right-for-the-reason目的による視覚的特徴重要度監督
- Authors: Zhuofan Ying, Peter Hase, Mohit Bansal
- Abstract要約: モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
- 参考スコア(独自算出の注目度): 84.48039784446166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many past works aim to improve visual reasoning in models by supervising
feature importance (estimated by model explanation techniques) with human
annotations such as highlights of important image regions. However, recent work
has shown that performance gains from feature importance (FI) supervision for
Visual Question Answering (VQA) tasks persist even with random supervision,
suggesting that these methods do not meaningfully align model FI with human FI.
In this paper, we show that model FI supervision can meaningfully improve VQA
model accuracy as well as performance on several Right-for-the-Right-Reason
(RRR) metrics by optimizing for four key model objectives: (1) accurate
predictions given limited but sufficient information (Sufficiency); (2)
max-entropy predictions given no important information (Uncertainty); (3)
invariance of predictions to changes in unimportant features (Invariance); and
(4) alignment between model FI explanations and human FI explanations
(Plausibility). Our best performing method, Visual Feature Importance
Supervision (VisFIS), outperforms strong baselines on benchmark VQA datasets in
terms of both in-distribution and out-of-distribution accuracy. While past work
suggests that the mechanism for improved accuracy is through improved
explanation plausibility, we show that this relationship depends crucially on
explanation faithfulness (whether explanations truly represent the model's
internal reasoning). Predictions are more accurate when explanations are
plausible and faithful, and not when they are plausible but not faithful.
Lastly, we show that, surprisingly, RRR metrics are not predictive of
out-of-distribution model accuracy when controlling for a model's
in-distribution accuracy, which calls into question the value of these metrics
for evaluating model reasoning. All supporting code is available at
https://github.com/zfying/visfis
- Abstract(参考訳): 多くの過去の研究は、重要な画像領域のハイライトなどの人間のアノテーションで特徴の重要性(モデル説明手法によって推定される)を監督することで、モデルの視覚的推論を改善することを目的としている。
しかし、近年の研究では、視覚質問応答(vqa)タスクに対する機能重要度(fi)監督によるパフォーマンス向上がランダムな監督でも持続していることが示されており、これらの手法がmodel fiを人間のfiと有意義に一致させるものではないことを示唆している。
In this paper, we show that model FI supervision can meaningfully improve VQA model accuracy as well as performance on several Right-for-the-Right-Reason (RRR) metrics by optimizing for four key model objectives: (1) accurate predictions given limited but sufficient information (Sufficiency); (2) max-entropy predictions given no important information (Uncertainty); (3) invariance of predictions to changes in unimportant features (Invariance); and (4) alignment between model FI explanations and human FI explanations (Plausibility).
当社の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、VQAデータセットの分布内と分布外の両方の精度において、ベンチマークVQAデータセットの強いベースラインを上回ります。
過去の研究は、精度向上のメカニズムは説明の妥当性の向上によるものであることを示唆しているが、この関係は説明の忠実性(説明がモデルの内部的推論を真に表すかどうか)に大きく依存していることを示している。
予測は説明が妥当で忠実である場合の方が正確であり、説明が妥当であるが忠実でない場合ではない。
最後に,RRR測度は,モデルの分布内精度を制御する際に,分布外モデルの精度を予測できないことを示し,モデル推論を評価するためにこれらの測度の価値を疑問視する。
すべてのサポートコードはhttps://github.com/zfying/visfisで入手できる。
関連論文リスト
- Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales [10.397502254316645]
二重補正予測のための二相予測手法を提案する。
まず、視覚認識タスクに対して構造化された合理性を提供する新しいデータセットをキュレートする。
第二に,視覚的エビデンスを解消し,局所化する際のモデル案内のための有理形最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:33:39Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Predicting generalization performance with correctness discriminators [64.00420578048855]
未確認データに対して,金のラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。
予測された上境界と下限の間に金の精度が確実に成立する様々なタグ付け、構文解析、意味解析タスクを示す。
論文 参考訳(メタデータ) (2023-11-15T22:43:42Z) - Boosted Control Functions [10.503777692702952]
本研究の目的は,因果効果推定と予測タスクのギャップを埋めることである。
我々は,機械学習の分布場と同時方程式モデル,およびエコノメティクスの制御関数との新たな接続を確立する。
このフレームワーク内では、予測モデルに対する不変性の強い概念を提案し、それを既存の(ウィーカー)バージョンと比較する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - Confidence and Dispersity Speak: Characterising Prediction Matrix for
Unsupervised Accuracy Estimation [51.809741427975105]
この研究は、ラベルを使わずに、分散シフト下でのモデルの性能を評価することを目的としている。
我々は、両方の特性を特徴付けるのに有効であることが示されている核規範を用いる。
核の基準は既存の手法よりも正確で堅牢であることを示す。
論文 参考訳(メタデータ) (2023-02-02T13:30:48Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z) - Unifying Model Explainability and Robustness via Machine-Checkable
Concepts [33.88198813484126]
本稿では,機械チェック可能な概念を用いた頑健性評価フレームワークを提案する。
本フレームワークは, 予測堅牢性を評価するために, 説明をベースとした多種多様な概念を定義し, テスト時の説明整合性チェックを実施している。
実世界のデータセットと人間のサーベイの実験は、我々のフレームワークが予測の堅牢性を大幅に向上できることを示している。
論文 参考訳(メタデータ) (2020-07-01T05:21:16Z) - Towards Transparent and Explainable Attention Models [34.0557018891191]
まず,LSTMをベースとしたエンコーダにおける現在の注意機構が,モデルの予測を忠実に,あるいは妥当に説明できない理由を説明する。
本研究では,異なる時間ステップで学習した隠れ表現が多様であることを保証するため,多様性駆動型学習目標を持つLSTM細胞を改良した。
人的評価は,本モデルが学習した注意分布が,モデルの予測を妥当に説明できることを示唆している。
論文 参考訳(メタデータ) (2020-04-29T14:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。