論文の概要: Learnable Visual Words for Interpretable Image Recognition
- arxiv url: http://arxiv.org/abs/2205.10724v1
- Date: Sun, 22 May 2022 03:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:15:59.243412
- Title: Learnable Visual Words for Interpretable Image Recognition
- Title(参考訳): 画像認識のための学習可能なビジュアルワード
- Authors: Wenxiao Xiao, Zhengming Ding, Hongfu Liu
- Abstract要約: モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
- 参考スコア(独自算出の注目度): 70.85686267987744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To interpret deep models' predictions, attention-based visual cues are widely
used in addressing \textit{why} deep models make such predictions. Beyond that,
the current research community becomes more interested in reasoning
\textit{how} deep models make predictions, where some prototype-based methods
employ interpretable representations with their corresponding visual cues to
reveal the black-box mechanism of deep model behaviors. However, these
pioneering attempts only either learn the category-specific prototypes and
deteriorate their generalizing capacities, or demonstrate several illustrative
examples without a quantitative evaluation of visual-based interpretability
with further limitations on their practical usages. In this paper, we revisit
the concept of visual words and propose the Learnable Visual Words (LVW) to
interpret the model prediction behaviors with two novel modules: semantic
visual words learning and dual fidelity preservation. The semantic visual words
learning relaxes the category-specific constraint, enabling the general visual
words shared across different categories. Beyond employing the visual words for
prediction to align visual words with the base model, our dual fidelity
preservation also includes the attention guided semantic alignment that
encourages the learned visual words to focus on the same conceptual regions for
prediction. Experiments on six visual benchmarks demonstrate the superior
effectiveness of our proposed LVW in both accuracy and model interpretation
over the state-of-the-art methods. Moreover, we elaborate on various in-depth
analyses to further explore the learned visual words and the generalizability
of our method for unseen categories.
- Abstract(参考訳): 深いモデルの予測を解釈するために、注意に基づく視覚的な手がかりは、 \textit{why} 深いモデルがそのような予測を行うのに広く使われている。
さらに、現在の研究コミュニティは、深層モデルの推論に興味を持つようになり、いくつかのプロトタイプベースの手法は、深部モデルの振る舞いのブラックボックスメカニズムを明らかにするために、対応する視覚的手がかりと解釈可能な表現を用いる。
しかしながら、これらの先駆的な試みは、カテゴリ固有のプロトタイプを学習し、それらの一般化能力を低下させるか、あるいは視覚ベースの解釈可能性の定量的評価を行なわずに、より実用的な使用法に制限を加えることなく、いくつかの図示的な例を示すのみである。
本稿では、視覚的単語の概念を再考し、意味的視覚的単語学習と二重忠実性保存という2つの新しいモジュールでモデル予測動作を解釈する学習可能な視覚的単語(LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
視覚的単語をベースモデルにアライメントするために,視覚的単語を用いるだけでなく,学習した視覚的単語が同じ概念的領域に集中して予測を行うための注意誘導的セマンティックアライメントも備えている。
6つの視覚的ベンチマーク実験により,提案したLVWの精度およびモデル解釈における有効性を示した。
さらに,学習した視覚的単語を詳細に分析し,未知のカテゴリに対する手法の一般化可能性について検討する。
関連論文リスト
- Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - What Do Deep Saliency Models Learn about Visual Attention? [28.023464783469738]
本稿では,サリエンシモデルによって学習された暗黙的特徴に光を当てる新しい分析フレームワークを提案する。
提案手法では,これらの暗黙的特徴を意味的属性に明示的に一致した解釈可能なベースに分解する。
論文 参考訳(メタデータ) (2023-10-14T23:15:57Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Describe me an Aucklet: Generating Grounded Perceptual Category
Descriptions [2.7195102129095003]
マルチモーダル言語モデルにおいて,カテゴリレベルの知覚的グラウンド化をテストするためのフレームワークを提案する。
我々は、視覚カテゴリーの記述を生成し解釈するために、別々のニューラルネットワークを訓練する。
コミュニケーションの成功が生成モデルの性能問題を露呈することを示します。
論文 参考訳(メタデータ) (2023-03-07T17:01:25Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。