論文の概要: Coarse to Fine: Multi-label Image Classification with Global/Local
Attention
- arxiv url: http://arxiv.org/abs/2012.13662v1
- Date: Sat, 26 Dec 2020 02:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 04:06:56.570779
- Title: Coarse to Fine: Multi-label Image Classification with Global/Local
Attention
- Title(参考訳): rough to fine: global/local attentionによるマルチラベル画像分類
- Authors: Fan Lyu, Fuyuan Hu, Victor S. Sheng, Zhengtian Wu, Qiming Fu and
Baochuan Fu
- Abstract要約: 粗い画像から細かい画像まで認識できるグローバル/ローカルな注意法を提案します。
具体的には、まず、グローバル/ローカルアテンション手法が画像全体に集中し、次に画像内の局所的なオブジェクトに注目します。
また,正のラベルの最小スコアが負のラベルの最大スコアよりも水平および垂直に大きいことを強制する統合的マックスマージン客観的関数を提案する。
- 参考スコア(独自算出の注目度): 19.532952411766168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In our daily life, the scenes around us are always with multiple labels
especially in a smart city, i.e., recognizing the information of city operation
to response and control. Great efforts have been made by using Deep Neural
Networks to recognize multi-label images. Since multi-label image
classification is very complicated, people seek to use the attention mechanism
to guide the classification process. However, conventional attention-based
methods always analyzed images directly and aggressively. It is difficult for
them to well understand complicated scenes. In this paper, we propose a
global/local attention method that can recognize an image from coarse to fine
by mimicking how human-beings observe images. Specifically, our global/local
attention method first concentrates on the whole image, and then focuses on
local specific objects in the image. We also propose a joint max-margin
objective function, which enforces that the minimum score of positive labels
should be larger than the maximum score of negative labels horizontally and
vertically. This function can further improve our multi-label image
classification method. We evaluate the effectiveness of our method on two
popular multi-label image datasets (i.e., Pascal VOC and MS-COCO). Our
experimental results show that our method outperforms state-of-the-art methods.
- Abstract(参考訳): 私たちの日常生活では、周囲のシーンは常に複数のラベルがあり、特にスマートシティ、すなわち、応答と制御に対する都市操作の情報を認識する。
ディープニューラルネットワークを使ってマルチラベル画像を認識することで、大きな努力がなされている。
マルチラベル画像分類は非常に複雑であるため、注意機構を用いて分類プロセスを導こうとしている。
しかし,従来の注意法は画像を直接的かつ積極的に分析する。
複雑な場面をよく理解することは困難である。
本稿では,人間による画像観察を模倣することで,粗い画像から細かい画像まで認識できるグローバル/ローカルアテンション手法を提案する。
具体的には、まず、グローバル/ローカルアテンション手法が画像全体に集中し、次に画像内の局所的なオブジェクトに注目します。
また,正のラベルの最小スコアが負のラベルの最大スコアよりも水平および垂直に大きいことを強制する統合的マックスマージン客観的関数を提案する。
この機能は、マルチラベル画像分類法をさらに改善することができる。
提案手法の有効性を2つの一般的なマルチラベル画像データセット(Pascal VOCとMS-COCO)で評価した。
実験の結果,本手法は最先端手法よりも優れていた。
関連論文リスト
- Iterative Few-shot Semantic Segmentation from Image Label Text [36.53926941601841]
ほとんどショットのセマンティックセマンティックセマンティクスは、いくつかのサポートイメージのガイダンスで、目に見えないクラスオブジェクトのセマンティクスを学ぶことを目的としている。
本稿では、強力な視覚言語モデルCLIPの助けを借りて、粗いマスクを生成するための一般的なフレームワークを提案する。
本手法は,野生および珍しいクラスの画像に対して,優れた一般化能力を有する。
論文 参考訳(メタデータ) (2023-03-10T01:48:14Z) - Spatial-context-aware deep neural network for multi-class image
classification [12.961070515143161]
意味情報と空間情報の両方を考慮したラベル予測のために,空間コンテキストを考慮した深層ニューラルネットワークを提案する。
このフレームワークはMicrosoft COCOとPASCAL VOCで評価され、画像のマルチラベリングに広く使われているベンチマークデータセットである。
論文 参考訳(メタデータ) (2021-11-24T06:36:10Z) - InfoSeg: Unsupervised Semantic Image Segmentation with Mutual
Information Maximization [0.0]
局所的特徴と大域的高レベル特徴の相互情報に基づく教師なし画像表現の新しい手法を提案する。
最初のステップでは、ローカル機能とグローバル機能に基づいて、イメージをセグメント化する。
第2のステップでは,各クラスの局所的特徴と高次特徴との相互関係を最大化する。
論文 参考訳(メタデータ) (2021-10-07T14:01:42Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。