Fugu-MT 論文翻訳(概要): Towards Visually Explaining Similarity Models

論文の概要: Towards Visually Explaining Similarity Models

arxiv url: http://arxiv.org/abs/2008.06035v2
Date: Tue, 13 Oct 2020 17:00:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-30 22:22:11.346484
Title: Towards Visually Explaining Similarity Models
Title（参考訳）: 類似性モデルの説明に向けて
Authors: Meng Zheng and Srikrishna Karanam and Terrence Chen and Richard J. Radke and Ziyan Wu
Abstract要約: 本稿では,画像類似度予測のための勾配に基づく視覚的注意を生成する手法を提案する。学習した機能の埋め込みにのみ依存することにより、我々のアプローチがCNNベースの類似性アーキテクチャのあらゆる種類に適用可能であることを示す。得られたアテンションマップは、単に解釈可能性だけでなく、新たなトレーニング可能な制約でモデル学習プロセス自体に注入可能であることを示す。
参考スコア（独自算出の注目度）: 29.704524987493766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of visually explaining similarity models, i.e., explaining why a model predicts two images to be similar in addition to producing a scalar score. While much recent work in visual model interpretability has focused on gradient-based attention, these methods rely on a classification module to generate visual explanations. Consequently, they cannot readily explain other kinds of models that do not use or need classification-like loss functions (e.g., similarity models trained with a metric learning loss). In this work, we bridge this crucial gap, presenting a method to generate gradient-based visual attention for image similarity predictors. By relying solely on the learned feature embedding, we show that our approach can be applied to any kind of CNN-based similarity architecture, an important step towards generic visual explainability. We show that our resulting attention maps serve more than just interpretability; they can be infused into the model learning process itself with new trainable constraints. We show that the resulting similarity models perform, and can be visually explained, better than the corresponding baseline models trained without these constraints. We demonstrate our approach using extensive experiments on three different kinds of tasks: generic image retrieval, person re-identification, and low-shot semantic segmentation.
Abstract（参考訳）: 類似度モデルを視覚的に説明すること、すなわち、スカラースコアを生成することに加えて、モデルが2つの画像が類似であると予測する理由を説明する。視覚モデル解釈可能性に関する最近の研究は勾配に基づく注意に焦点を当てているが、これらの手法は視覚的説明を生成するために分類モジュールに依存している。したがって、分類のような損失関数を使用しない、あるいは必要としない他の種類のモデル(例えば、メトリック学習損失で訓練された類似性モデル)を容易に説明できない。本研究では,画像類似性予測のための勾配に基づく視覚注意を生成する手法を提案することで,このギャップを橋渡しする。学習した機能の埋め込みにのみ依存することにより、我々のアプローチがCNNベースの類似性アーキテクチャに応用可能であることを示す。得られた注目マップは、単に解釈可能性だけでなく、新たなトレーニング可能な制約でモデル学習プロセス自体に注入可能であることを示す。これらの制約を伴わずにトレーニングされたベースラインモデルよりも優れた類似性モデルが実現し、視覚的に説明できることを示す。汎用画像検索,人物再識別,低ショットセマンティックセマンティックセグメンテーションという,3種類のタスクについて広範な実験を行った。

関連論文リスト

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。視覚言語モデル(VLM)の規則に基づく強化学習に適応する提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2025-06-27T17:59:27Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
CNN-based explanation ensembling for dataset, representation and explanations evaluation [1.1060425537315088]
畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするために、説明を組み合わせることの意味を明らかにすることを目的とする。
論文参考訳（メタデータ） (2024-04-16T08:39:29Z)
CAM-Based Methods Can See through Walls [6.356330972370584]
CAMに基づくほとんどの解釈可能性法は、重要なスコアを、モデルが見ることができない画像の一部に誤って属性付けることができることを示す。我々は、画像の下部を使わないよう制約されたVGGライクなモデルを訓練し、画像の見えない部分の正のスコアを観察する。この挙動は、2つの新しいデータセットで定量的に評価される。
論文参考訳（メタデータ） (2024-04-02T13:57:30Z)
COSE: A Consistency-Sensitivity Metric for Saliency on Image Classification [21.3855970055692]
本稿では,画像分類タスクにおいて,視覚の先行値を用いてサリエンシ手法の性能を評価する指標について述べる。しかし,ほとんどの手法では,畳み込みモデルよりもトランスフォーマーモデルの方がよく説明できる。
論文参考訳（メタデータ） (2023-09-20T01:06:44Z)
Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-03-25T15:06:47Z)
Identifying Spurious Correlations and Correcting them with an Explanation-based Learning [4.039245878626345]
本稿では,画像分類問題に対する学習モデルにより学習されたスプリアス相関を簡易に同定する手法を提案する。トレーニングしたモデルを用いて,画像レベルの摂動を適用し,予測精度の変化を監視する。
論文参考訳（メタデータ） (2022-11-15T16:34:53Z)
From Canonical Correlation Analysis to Self-supervised Graph Neural Networks [99.44881722969046]
本稿では,グラフデータを用いた自己教師付き表現学習のための概念的単純かつ効果的なモデルを提案する。古典的カノニカル相関解析にインスパイアされた,革新的な特徴レベルの目的を最適化する。提案手法は、7つの公開グラフデータセット上で競合的に動作する。
論文参考訳（メタデータ） (2021-06-23T15:55:47Z)
Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文参考訳（メタデータ） (2021-01-15T10:23:12Z)
Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。 RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文参考訳（メタデータ） (2020-07-23T14:00:34Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。