論文の概要: Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning
Models
- arxiv url: http://arxiv.org/abs/2001.01037v5
- Date: Sun, 1 Aug 2021 06:27:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 12:30:54.721714
- Title: Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning
Models
- Title(参考訳): 説明と改善:画像キャプションモデルのためのLPP推論ファインチューニング
- Authors: Jiamei Sun, Sebastian Lapuschkin, Wojciech Samek, Alexander Binder
- Abstract要約: 本稿では,注意を可視化する以外に,注意機構を付加した画像キャプションモデルの予測について分析する。
我々は,注意機構を備えた画像キャプションモデルに適したレイヤワイド関連伝搬(LRP)と勾配に基づく説明法を開発した。
- 参考スコア(独自算出の注目度): 82.3793660091354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyzes the predictions of image captioning models with attention
mechanisms beyond visualizing the attention itself. We develop variants of
layer-wise relevance propagation (LRP) and gradient-based explanation methods,
tailored to image captioning models with attention mechanisms. We compare the
interpretability of attention heatmaps systematically against the explanations
provided by explanation methods such as LRP, Grad-CAM, and Guided Grad-CAM. We
show that explanation methods provide simultaneously pixel-wise image
explanations (supporting and opposing pixels of the input image) and linguistic
explanations (supporting and opposing words of the preceding sequence) for each
word in the predicted captions. We demonstrate with extensive experiments that
explanation methods 1) can reveal additional evidence used by the model to make
decisions compared to attention; 2) correlate to object locations with high
precision; 3) are helpful to "debug" the model, e.g. by analyzing the reasons
for hallucinated object words. With the observed properties of explanations, we
further design an LRP-inference fine-tuning strategy that reduces the issue of
object hallucination in image captioning models, and meanwhile, maintains the
sentence fluency. We conduct experiments with two widely used attention
mechanisms: the adaptive attention mechanism calculated with the additive
attention and the multi-head attention mechanism calculated with the scaled dot
product.
- Abstract(参考訳): 本稿では,注意自体を可視化する以上の注意機構を持つ画像キャプションモデルの予測について解析する。
我々は,注意機構を備えた画像キャプションモデルに適したレイヤワイド関連伝搬(LRP)と勾配に基づく説明法を開発した。
LRP, Grad-CAM, Guided Grad-CAMなどの説明手法を用いて, 注意熱マップの解釈可能性を体系的に比較した。
予測されたキャプション内の各単語に対して、画素単位の画像説明(入力画像の画素のサポートと反対)と言語説明(前のシーケンスの単語のサポートと反対)を同時に提供することを示す。
説明法に関する広範な実験で実証する
1) モデルが注意に対して決定を下すために使用する追加の証拠を明らかにすることができる。
2) 被写体の位置と高精度に相関する。
3) 幻覚的対象単語の理由を解析することにより,モデルを"デバッグ"する上で有用である。
説明の観察特性から,画像キャプションモデルにおける物体幻覚の問題を低減し,文章の流布を抑えるLRP-inference fine-tuning戦略をさらに設計する。
本研究では, 適応的注意機構を付加的注意機構で計算し, 多頭部的注意機構をスケールしたドット積で計算した。
関連論文リスト
- CNN-based explanation ensembling for dataset, representation and explanations evaluation [1.1060425537315088]
畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。
実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするために、説明を組み合わせることの意味を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-04-16T08:39:29Z) - Naturalness of Attention: Revisiting Attention in Code Language Models [3.756550107432323]
CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。
本研究は、注意重みを超える注意機構のこれまで無視されていた要因について、いくつかの光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-11-22T16:34:12Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Dual Decomposition of Convex Optimization Layers for Consistent
Attention in Medical Images [12.844658658362325]
医学における機械学習モデルの統合における主要な関心事は、推論を解釈する能力である。
共起層間の一貫した解釈を行う多層アテンション機構を提案する。
提案手法は,弱い注釈付き医用画像データを活用し,モデルの予測に対する完全かつ忠実な説明を提供する。
論文 参考訳(メタデータ) (2022-06-06T17:38:00Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Human Interpretation of Saliency-based Explanation Over Text [65.29015910991261]
テキストデータ上でのサリエンシに基づく説明について検討する。
人はしばしば説明を誤って解釈する。
本稿では,過度知覚と過小認識のモデル推定に基づいて,サリエンシを調整する手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T15:20:32Z) - Effective Attention Sheds Light On Interpretability [3.317258557707008]
有効な注意を可視化することは、標準的な注意の解釈とは異なる結論を与えるかどうかを問う。
実効的な注意力は、言語モデリング事前学習に関連する特徴とあまり関連がないことを示す。
設計によって出力されるモデルに関係が深いため, 変圧器の挙動を研究する上で, 効果的な注意を払うことを推奨する。
論文 参考訳(メタデータ) (2021-05-18T23:41:26Z) - Explainers in the Wild: Making Surrogate Explainers Robust to
Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。
Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文 参考訳(メタデータ) (2021-02-22T12:38:53Z) - Survey of explainable machine learning with visual and granular methods
beyond quasi-explanations [0.0]
我々は、MLで支配的な準説明から、粒度の視覚によって支えられるドメイン固有の説明に移行することに注力する。
この論文は、ジョンソン-リンデンシュトラウス補題に基づくn-D距離の低次元保存に関する理論的限界に関する結果を含む。
論文 参考訳(メタデータ) (2020-09-21T23:39:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。