論文の概要: HOLMES: HOLonym-MEronym based Semantic inspection for Convolutional
Image Classifiers
- arxiv url: http://arxiv.org/abs/2403.08536v1
- Date: Wed, 13 Mar 2024 13:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:11:00.934285
- Title: HOLMES: HOLonym-MEronym based Semantic inspection for Convolutional
Image Classifiers
- Title(参考訳): HOLMES:Holionym-Meronymによる畳み込みのセマンティックインスペクション
画像分類器
- Authors: Francesco Dibitonto, Fabio Garcea, Andr\'e Panisson, Alan Perotti, and
Lia Morra
- Abstract要約: 本稿では,ラベルを関連概念の集合に分解する手法を提案する。
HOLMESはイメージ分類のためのコンポーネントレベルの説明を提供する。
- 参考スコア(独自算出の注目度): 1.6252896527001481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) are nowadays the model of choice in
Computer Vision, thanks to their ability to automatize the feature extraction
process in visual tasks. However, the knowledge acquired during training is
fully subsymbolic, and hence difficult to understand and explain to end users.
In this paper, we propose a new technique called HOLMES (HOLonym-MEronym based
Semantic inspection) that decomposes a label into a set of related concepts,
and provides component-level explanations for an image classification model.
Specifically, HOLMES leverages ontologies, web scraping and transfer learning
to automatically construct meronym (parts)-based detectors for a given holonym
(class). Then, it produces heatmaps at the meronym level and finally, by
probing the holonym CNN with occluded images, it highlights the importance of
each part on the classification output. Compared to state-of-the-art saliency
methods, HOLMES takes a step further and provides information about both where
and what the holonym CNN is looking at, without relying on densely annotated
datasets and without forcing concepts to be associated to single computational
units. Extensive experimental evaluation on different categories of objects
(animals, tools and vehicles) shows the feasibility of our approach. On
average, HOLMES explanations include at least two meronyms, and the ablation of
a single meronym roughly halves the holonym model confidence. The resulting
heatmaps were quantitatively evaluated using the
deletion/insertion/preservation curves. All metrics were comparable to those
achieved by GradCAM, while offering the advantage of further decomposing the
heatmap in human-understandable concepts, thus highlighting both the relevance
of meronyms to object classification, as well as HOLMES ability to capture it.
The code is available at https://github.com/FrancesC0de/HOLMES.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、現在、視覚タスクにおける特徴抽出プロセスを自動化する能力のおかげで、コンピュータビジョンにおける選択モデルとなっている。
しかし、トレーニング中に得られた知識は完全に象徴的であり、エンドユーザに理解し説明することは困難である。
本稿では,HOLMES (Hoolonym-Meronym based Semantic inspection) と呼ばれる新しい手法を提案する。
具体的には、HOLMESはオントロジー、Webスクレイピング、転送学習を活用して、与えられたホロニム(クラス)のメロニム(部分)ベースの検出器を自動的に構築する。
そして, メロニムレベルで熱マップを生成し, そして最後に, ホログラムCNNを隠蔽画像で探索することにより, 分類出力における各部分の重要性を明らかにする。
HOLMESは最先端のサリエンシ手法と比較してさらに一歩前進し、高密度の注釈付きデータセットを必要とせず、概念を単一の計算単位に関連付けることなく、CNNがどこと何を見ているのかに関する情報を提供する。
対象物(動物、道具、車両)の分類に関する広範囲な実験的評価は、我々のアプローチの可能性を示している。
平均すると、HOLMESの説明には少なくとも2つのメロニムが含まれており、単一のメロニムのアブレーションはホロニムモデルの信頼性をほぼ半分にしている。
得られた熱マップは削除・挿入・保存曲線を用いて定量的に評価した。
すべてのメトリクスはGradCAMが達成したものに匹敵するものであり、人間の理解できない概念におけるヒートマップのさらなる分解の利点を提供し、その結果、メロニムのオブジェクト分類との関連性と、それをキャプチャするHOLMES能力の両方を強調した。
コードはhttps://github.com/FrancesC0de/HOLMESで公開されている。
関連論文リスト
- KMF: Knowledge-Aware Multi-Faceted Representation Learning for Zero-Shot
Node Classification [75.95647590619929]
Zero-Shot Node Classification (ZNC)は、グラフデータ分析において、新しく重要なタスクである。
ラベルセマンティクスの豊かさを向上する知識認識型多面的フレームワーク(KMF)を提案する。
ノード情報集約によるプロトタイプドリフトの問題を軽減するために,新しい幾何学的制約を開発した。
論文 参考訳(メタデータ) (2023-08-15T02:38:08Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation [6.053853367809978]
既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。
本稿では,多情報集約ネットワーク(MIANet)を提案する。
PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-23T09:36:27Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Visual Recognition with Deep Nearest Centroids [57.35144702563746]
我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
論文 参考訳(メタデータ) (2022-09-15T15:47:31Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Deep Semantic Dictionary Learning for Multi-label Image Classification [3.3989824361632337]
本稿では,辞書学習課題であるマルチラベル画像分類の解法に向けて,革新的な方法を提案する。
Deep Semantic Dictionary Learning(DSDL)という新しいエンドツーエンドモデルが設計されている。
コードとモデルを公開しました。
論文 参考訳(メタデータ) (2020-12-23T06:22:47Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。