論文の概要: Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual
Categorization
- arxiv url: http://arxiv.org/abs/2003.09150v3
- Date: Tue, 21 Jul 2020 14:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:25:46.834359
- Title: Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual
Categorization
- Title(参考訳): 細粒度視覚分類のためのマルチブランチ・マルチスケール注意学習
- Authors: Fan Zhang, Meng Li, Guisheng Zhai, Yizhao Liu
- Abstract要約: ImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、近年のコンピュータビジョン(CV)分野における最も権威ある学術コンペティションの1つである。
ILSVRCの年次チャンピオンを、きめ細かい視覚分類(FGVC)タスクに直接適用しても、良いパフォーマンスは得られない。
私たちのアプローチはエンドツーエンドでトレーニングできますが、短い推論時間を提供します。
- 参考スコア(独自算出の注目度): 6.415792312027131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ImageNet Large Scale Visual Recognition Challenge (ILSVRC) is one of the most
authoritative academic competitions in the field of Computer Vision (CV) in
recent years. But applying ILSVRC's annual champion directly to fine-grained
visual categorization (FGVC) tasks does not achieve good performance. To FGVC
tasks, the small inter-class variations and the large intra-class variations
make it a challenging problem. Our attention object location module (AOLM) can
predict the position of the object and attention part proposal module (APPM)
can propose informative part regions without the need of bounding-box or part
annotations. The obtained object images not only contain almost the entire
structure of the object, but also contains more details, part images have many
different scales and more fine-grained features, and the raw images contain the
complete object. The three kinds of training images are supervised by our
multi-branch network. Therefore, our multi-branch and multi-scale learning
network(MMAL-Net) has good classification ability and robustness for images of
different scales. Our approach can be trained end-to-end, while provides short
inference time. Through the comprehensive experiments demonstrate that our
approach can achieves state-of-the-art results on CUB-200-2011, FGVC-Aircraft
and Stanford Cars datasets. Our code will be available at
https://github.com/ZF1044404254/MMAL-Net
- Abstract(参考訳): ImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、近年のコンピュータビジョン(CV)分野における最も権威ある学術コンペティションの1つである。
しかし、ILSVRCの年次チャンピオンを細粒度視覚分類(FGVC)タスクに直接適用しても性能は良くない。
FGVCタスクでは、クラス間の小さなバリエーションとクラス間の大きなバリエーションが問題となる。
我々の注目オブジェクト配置モジュール(AOLM)は、オブジェクトの位置を予測でき、注目部分提案モジュール(APPM)は、バウンディングボックスや部分アノテーションを必要とせずに、情報的部分領域を提案することができる。
得られたオブジェクト画像は、オブジェクトのほぼ全体を包含するだけでなく、さらに詳細を包含し、部分画像は、多くの異なるスケールとより細かな特徴を有し、生画像は、完全なオブジェクトを含む。
3種類のトレーニング画像はマルチブランチネットワークによって監視されます。
したがって、我々のマルチブランチ・マルチスケール学習ネットワーク(MMAL-Net)は、異なるスケールの画像に対して優れた分類能力と堅牢性を有する。
このアプローチはエンドツーエンドでトレーニングでき、短い推論時間を提供します。
CUB-200-2011、FGVC-Aircraft、Stanford Carsのデータセット上で、我々のアプローチが最先端の結果が得られることを示す。
私たちのコードはhttps://github.com/ZF1044404254/MMAL-Netで公開されます。
関連論文リスト
- Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models [0.6149772262764599]
本稿では,FS-CS問題を視覚質問 (VQA) 問題に変換する視覚指導評価 (VISE) 手法を提案する。
提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T13:29:41Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - PartImageNet: A Large, High-Quality Dataset of Parts [16.730418538593703]
パートセグメンテーションアノテーションを備えた高品質なデータセットであるPartImageNetを提案する。
PartImageNetは、非厳密で明示的なオブジェクトを持つ一般的なクラスのセットに、部分レベルのアノテーションを提供するため、ユニークなものだ。
複数の視覚タスクで使用できるが、制限はない:Part Discovery、Few-shot Learning。
論文 参考訳(メタデータ) (2021-12-02T02:12:03Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image
and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。
本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。
提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文 参考訳(メタデータ) (2020-10-04T19:23:33Z) - Multiple instance learning on deep features for weakly supervised object
detection with extreme domain shifts [1.9336815376402716]
近年,画像レベルのアノテーションのみを用いたオブジェクト検出 (WSOD) が注目されている。
事前学習した深部特徴に応用した単純な複数インスタンスアプローチは、非写真データセットに優れた性能をもたらすことを示す。
論文 参考訳(メタデータ) (2020-08-03T20:36:01Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。