論文の概要: Where is the Model Looking At?--Concentrate and Explain the Network
Attention
- arxiv url: http://arxiv.org/abs/2009.13862v1
- Date: Tue, 29 Sep 2020 08:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 05:53:50.792371
- Title: Where is the Model Looking At?--Concentrate and Explain the Network
Attention
- Title(参考訳): モデルはどこを見ているのか?
--集中してネットワークの注意を説明
- Authors: Wenjia Xu, Jiuniu Wang, Yang Wang, Guangluan Xu, Wei Dai, Yirong Wu
- Abstract要約: 本稿では、識別画像領域にモデル注意を集中させるための説明可能な属性ベースマルチタスク(EAT)フレームワークを提案する。
我々は,属性に基づく属性記述をネットワークに生成し,その属性を画像上にグラウンドして視覚的説明を示す。
結果は、EATフレームワークがネットワーク決定を解釈するマルチモーダルな説明をすることができることを示唆している。
- 参考スコア(独自算出の注目度): 21.037241523836553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image classification models have achieved satisfactory performance on many
datasets, sometimes even better than human. However, The model attention is
unclear since the lack of interpretability. This paper investigates the
fidelity and interpretability of model attention. We propose an Explainable
Attribute-based Multi-task (EAT) framework to concentrate the model attention
on the discriminative image area and make the attention interpretable. We
introduce attributes prediction to the multi-task learning network, helping the
network to concentrate attention on the foreground objects. We generate
attribute-based textual explanations for the network and ground the attributes
on the image to show visual explanations. The multi-model explanation can not
only improve user trust but also help to find the weakness of network and
dataset. Our framework can be generalized to any basic model. We perform
experiments on three datasets and five basic models. Results indicate that the
EAT framework can give multi-modal explanations that interpret the network
decision. The performance of several recognition approaches is improved by
guiding network attention.
- Abstract(参考訳): 画像分類モデルは、多くのデータセットで、時には人間よりも優れた性能を達成している。
しかし、解釈可能性の欠如からモデルへの注目は明らかではない。
本稿では,モデル注意の忠実性と解釈可能性について検討する。
本稿では、識別画像領域にモデル注意を集中させ、注意を解釈できるように、説明可能な属性ベースのマルチタスク(EAT)フレームワークを提案する。
我々はマルチタスク学習ネットワークに属性予測を導入し、ネットワークが前景オブジェクトに注意を集中するのを手助けする。
属性に基づく属性記述をネットワークに生成し、画像上の属性をグラウンドして視覚的説明を示す。
マルチモデルの説明は、ユーザの信頼を高めるだけでなく、ネットワークとデータセットの弱点を見つけるのにも役立ちます。
我々のフレームワークはどんな基本モデルにも一般化できる。
3つのデータセットと5つの基本モデルで実験を行う。
その結果、eatフレームワークはネットワーク決定を解釈するマルチモーダルな説明を与えることができる。
ネットワークの注意を誘導することにより,複数の認識手法の性能が向上した。
関連論文リスト
- Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - MEGAN: Multi-Explanation Graph Attention Network [1.1470070927586016]
マルチエクスラレーショングラフアテンションネットワーク(MEGAN)を提案する。
既存のグラフ説明可能性法とは異なり、ネットワークは複数のチャネルに沿ってノードとエッジの属性の説明を生成することができる。
我々の注意に基づくネットワークは完全に差別化可能であり、説明を指導的な方法で積極的に訓練することができる。
論文 参考訳(メタデータ) (2022-11-23T16:10:13Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Explain by Evidence: An Explainable Memory-based Neural Network for
Question Answering [41.73026155036886]
本稿では,エビデンスに基づくメモリネットワークアーキテクチャを提案する。
データセットを要約し、その決定を下すための証拠を抽出することを学ぶ。
本モデルは,2つの質問応答データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-05T21:18:21Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Focus Longer to See Better:Recursively Refined Attention for
Fine-Grained Image Classification [148.4492675737644]
Deep Neural Networkは、粗い粒度の画像分類タスクにおいて大きな進歩を見せている。
本稿では,これらの限界差に着目して,より代表的な特徴を抽出する。
我々のネットワークは、画像の一部に繰り返し焦点を合わせ、クラス間の小さな識別的部分を見つける。
論文 参考訳(メタデータ) (2020-05-22T03:14:18Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。