論文の概要: Explaining Deep Convolutional Neural Networks via Latent Visual-Semantic
Filter Attention
- arxiv url: http://arxiv.org/abs/2204.04601v1
- Date: Sun, 10 Apr 2022 04:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 11:32:49.806000
- Title: Explaining Deep Convolutional Neural Networks via Latent Visual-Semantic
Filter Attention
- Title(参考訳): 潜時視覚意味フィルタによる深部畳み込みニューラルネットワークの解説
- Authors: Yu Yang, Seungbae Kim, Jungseock Joo
- Abstract要約: 本稿では,既存の畳み込みニューラルネットワークを用いて,フィルタレベルでの潜在表現に関するテキスト記述を生成するフレームワークを提案する。
本手法は,学習データセットに定義されたカテゴリの組を超えて,学習したフィルタの新たな記述を生成することができることを示す。
また、教師なしデータセットバイアス分析のための新しい手法の応用を実証する。
- 参考スコア(独自算出の注目度): 7.237370981736913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability is an important property for visual models as it helps
researchers and users understand the internal mechanism of a complex model.
However, generating semantic explanations about the learned representation is
challenging without direct supervision to produce such explanations. We propose
a general framework, Latent Visual Semantic Explainer (LaViSE), to teach any
existing convolutional neural network to generate text descriptions about its
own latent representations at the filter level. Our method constructs a mapping
between the visual and semantic spaces using generic image datasets, using
images and category names. It then transfers the mapping to the target domain
which does not have semantic labels. The proposed framework employs a modular
structure and enables to analyze any trained network whether or not its
original training data is available. We show that our method can generate novel
descriptions for learned filters beyond the set of categories defined in the
training dataset and perform an extensive evaluation on multiple datasets. We
also demonstrate a novel application of our method for unsupervised dataset
bias analysis which allows us to automatically discover hidden biases in
datasets or compare different subsets without using additional labels. The
dataset and code are made public to facilitate further research.
- Abstract(参考訳): 可読性は視覚モデルにとって重要な特性であり、研究者やユーザが複雑なモデルの内部メカニズムを理解するのに役立つ。
しかし、学習した表現に関する意味的な説明を生成することは、そのような説明を直接の監督なしには困難である。
そこで本研究では,既存の畳み込みニューラルネットワークに対して,潜伏表現に関するテキスト記述をフィルタレベルで生成するための汎用フレームワークである潜伏視覚意味説明器(latent visual semantic descriptioner,lavise)を提案する。
本手法は,画像とカテゴリ名を用いて,汎用画像データセットを用いた視覚空間と意味空間のマッピングを構築する。
その後、セマンティックラベルを持たないターゲットドメインにマッピングを転送する。
提案するフレームワークはモジュール構造を採用し、トレーニング済みのトレーニングデータが利用可能かどうかに関わらず、トレーニング済みのネットワークを分析できる。
本手法は,トレーニングデータセットで定義されたカテゴリのセット以上の学習フィルタに対して新たな記述を生成し,複数のデータセットについて広範な評価を行うことができることを示す。
また,データセット内の隠れたバイアスを自動的に検出したり,ラベルを追加することなく異なるサブセットを比較することのできる教師なしデータセットバイアス解析の新たな応用例を示す。
データセットとコードは、さらなる研究を容易にするために公開されます。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Linking in Style: Understanding learned features in deep learning models [0.0]
畳み込みニューラルネットワーク(CNN)は抽象的な特徴を学び、オブジェクト分類を行う。
本稿では,CNNにおける学習特徴を可視化し,体系的に解析する自動手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T12:28:48Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - TAX: Tendency-and-Assignment Explainer for Semantic Segmentation with
Multi-Annotators [31.36818611460614]
Tendency-and-Assignment Explainer (TAX) はアノテータと割り当てレベルで解釈性を提供するように設計されている。
我々のTAXは、同等の性能を持つ最先端のネットワークアーキテクチャに適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-19T12:40:22Z) - Extracting Semantic Knowledge from GANs with Unsupervised Learning [65.32631025780631]
GAN(Generative Adversarial Networks)は、特徴写像のセマンティクスを線形に分離可能な形でエンコードする。
本稿では,線形分離性を利用してGANの特徴をクラスタリングする新しいクラスタリングアルゴリズムKLiSHを提案する。
KLiSHは、さまざまなオブジェクトのデータセットに基づいてトレーニングされたGANのきめ細かいセマンティクスの抽出に成功している。
論文 参考訳(メタデータ) (2022-11-30T03:18:16Z) - The SVD of Convolutional Weights: A CNN Interpretability Framework [3.5783190448496343]
本稿では,ハイパーグラフを用いてクラス分離をモデル化する手法を提案する。
ネットワークを説明するためにアクティベーションを見るのではなく、各線形層に対して最大の対応する特異値を持つ特異ベクトルを用いて、ネットワークにとって最も重要な特徴を識別する。
論文 参考訳(メタデータ) (2022-08-14T18:23:02Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Latent Feature Representation via Unsupervised Learning for Pattern
Discovery in Massive Electron Microscopy Image Volumes [4.278591555984395]
特に,データセットにおける意味的類似性を捉える潜在表現を学ぶための教師なしのディープラーニングアプローチを提案する。
動物脳の比較的小さな部分でもテラバイトの画像を要求できるナノスケールの電子顕微鏡データに適用する手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:14:19Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。