論文の概要: Coarse to Fine: Multi-label Image Classification with Global/Local
Attention
- arxiv url: http://arxiv.org/abs/2012.13662v1
- Date: Sat, 26 Dec 2020 02:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 04:06:56.570779
- Title: Coarse to Fine: Multi-label Image Classification with Global/Local
Attention
- Title(参考訳): rough to fine: global/local attentionによるマルチラベル画像分類
- Authors: Fan Lyu, Fuyuan Hu, Victor S. Sheng, Zhengtian Wu, Qiming Fu and
Baochuan Fu
- Abstract要約: 粗い画像から細かい画像まで認識できるグローバル/ローカルな注意法を提案します。
具体的には、まず、グローバル/ローカルアテンション手法が画像全体に集中し、次に画像内の局所的なオブジェクトに注目します。
また,正のラベルの最小スコアが負のラベルの最大スコアよりも水平および垂直に大きいことを強制する統合的マックスマージン客観的関数を提案する。
- 参考スコア(独自算出の注目度): 19.532952411766168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In our daily life, the scenes around us are always with multiple labels
especially in a smart city, i.e., recognizing the information of city operation
to response and control. Great efforts have been made by using Deep Neural
Networks to recognize multi-label images. Since multi-label image
classification is very complicated, people seek to use the attention mechanism
to guide the classification process. However, conventional attention-based
methods always analyzed images directly and aggressively. It is difficult for
them to well understand complicated scenes. In this paper, we propose a
global/local attention method that can recognize an image from coarse to fine
by mimicking how human-beings observe images. Specifically, our global/local
attention method first concentrates on the whole image, and then focuses on
local specific objects in the image. We also propose a joint max-margin
objective function, which enforces that the minimum score of positive labels
should be larger than the maximum score of negative labels horizontally and
vertically. This function can further improve our multi-label image
classification method. We evaluate the effectiveness of our method on two
popular multi-label image datasets (i.e., Pascal VOC and MS-COCO). Our
experimental results show that our method outperforms state-of-the-art methods.
- Abstract(参考訳): 私たちの日常生活では、周囲のシーンは常に複数のラベルがあり、特にスマートシティ、すなわち、応答と制御に対する都市操作の情報を認識する。
ディープニューラルネットワークを使ってマルチラベル画像を認識することで、大きな努力がなされている。
マルチラベル画像分類は非常に複雑であるため、注意機構を用いて分類プロセスを導こうとしている。
しかし,従来の注意法は画像を直接的かつ積極的に分析する。
複雑な場面をよく理解することは困難である。
本稿では,人間による画像観察を模倣することで,粗い画像から細かい画像まで認識できるグローバル/ローカルアテンション手法を提案する。
具体的には、まず、グローバル/ローカルアテンション手法が画像全体に集中し、次に画像内の局所的なオブジェクトに注目します。
また,正のラベルの最小スコアが負のラベルの最大スコアよりも水平および垂直に大きいことを強制する統合的マックスマージン客観的関数を提案する。
この機能は、マルチラベル画像分類法をさらに改善することができる。
提案手法の有効性を2つの一般的なマルチラベル画像データセット(Pascal VOCとMS-COCO)で評価した。
実験の結果,本手法は最先端手法よりも優れていた。
関連論文リスト
- Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [80.96500171894702]
部分ラベル付きマルチラベル画像認識モデル(MLR-PL)を訓練することは、この問題に対処するための代替手段である。
多粒度カテゴリ固有の意味表現をブレンドする2つの重要なモジュールからなる統合意味認識表現ブレンディング(SARB)を提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットに対する大規模な実験は、提案されたSARBが現在の最先端アルゴリズムを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Generalized Category Discovery [148.32255950504182]
本稿では,ラベル付き画像集合とラベル付き画像集合とを併用した画像認識手法を提案する。
ここでは、未表示の画像はラベル付きクラスから、あるいは新しいものから来ているかもしれない。
まず、新しいカテゴリー発見から最先端のアルゴリズムを取り入れ、そのタスクに適応することで、強力なベースラインを確立する。
次に、単純だが効果的な半教師付き$k$-meansメソッドを導入する。
論文 参考訳(メタデータ) (2022-01-07T18:58:35Z) - Weakly-supervised Generative Adversarial Networks for medical image
classification [1.479639149658596]
Weakly-Supervised Generative Adversarial Networks (WSGAN) と呼ばれる新しい医用画像分類アルゴリズムを提案する。
WSGANは、ラベルのない少数の実画像のみを使用して、偽画像やマスク画像を生成し、トレーニングセットのサンプルサイズを拡大する。
ラベル付きデータやラベルなしデータの少ない使用により,WSGANは比較的高い学習性能が得られることを示す。
論文 参考訳(メタデータ) (2021-11-29T15:38:48Z) - Spatial-context-aware deep neural network for multi-class image
classification [12.961070515143161]
意味情報と空間情報の両方を考慮したラベル予測のために,空間コンテキストを考慮した深層ニューラルネットワークを提案する。
このフレームワークはMicrosoft COCOとPASCAL VOCで評価され、画像のマルチラベリングに広く使われているベンチマークデータセットである。
論文 参考訳(メタデータ) (2021-11-24T06:36:10Z) - InfoSeg: Unsupervised Semantic Image Segmentation with Mutual
Information Maximization [0.0]
局所的特徴と大域的高レベル特徴の相互情報に基づく教師なし画像表現の新しい手法を提案する。
最初のステップでは、ローカル機能とグローバル機能に基づいて、イメージをセグメント化する。
第2のステップでは,各クラスの局所的特徴と高次特徴との相互関係を最大化する。
論文 参考訳(メタデータ) (2021-10-07T14:01:42Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。