論文の概要: Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition
- arxiv url: http://arxiv.org/abs/2204.10731v1
- Date: Fri, 22 Apr 2022 14:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 16:27:36.519672
- Title: Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition
- Title(参考訳): Diverse Instance Discovery: インスタンス対応マルチラベル画像認識のためのビジョン変換器
- Authors: Yunqing Hu, Xuan Jin, Yin Zhang, Haiwen Hong, Jingfeng Zhang, Feihu
Yan, Yuan He, Hui Xue
- Abstract要約: 視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 24.406654146411682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works on multi-label image recognition (MLIR) usually use CNNs as a
starting point for research. In this paper, we take pure Vision Transformer
(ViT) as the research base and make full use of the advantages of Transformer
with long-range dependency modeling to circumvent the disadvantages of CNNs
limited to local receptive field. However, for multi-label images containing
multiple objects from different categories, scales, and spatial relations, it
is not optimal to use global information alone. Our goal is to leverage ViT's
patch tokens and self-attention mechanism to mine rich instances in multi-label
images, named diverse instance discovery (DiD). To this end, we propose a
semantic category-aware module and a spatial relationship-aware module,
respectively, and then combine the two by a re-constraint strategy to obtain
instance-aware attention maps. Finally, we propose a weakly supervised object
localization-based approach to extract multi-scale local features, to form a
multi-view pipeline. Our method requires only weakly supervised information at
the label level, no additional knowledge injection or other strongly supervised
information is required. Experiments on three benchmark datasets show that our
method significantly outperforms previous works and achieves state-of-the-art
results under fair experimental comparisons.
- Abstract(参考訳): MLIR(Multi-label Image Recognition)の研究は通常、CNNを研究の出発点として使用している。
本稿では、視覚変換器(ViT)を研究基盤として、長距離依存モデルを用いたトランスフォーマーの利点をフル活用して、局所受容場に限定されたCNNの欠点を回避する。
しかし、異なるカテゴリ、スケール、空間関係の複数のオブジェクトを含むマルチラベル画像の場合、グローバル情報のみを使用するのが最適ではない。
当社の目標は,vitのパッチトークンと自己アテンション機構を活用して,マルチラベルイメージのリッチインスタンスをマイニングすることにあります。
この目的のために,意味圏認識モジュールと空間関係認識モジュールをそれぞれ提案し,その2つを再制約戦略で組み合わせ,インスタンス認識の注意マップを得る。
最後に,弱教師付きオブジェクトローカライゼーションに基づくマルチスケールな局所特徴抽出手法を提案し,マルチビューパイプラインを形成する。
本手法はラベルレベルでの弱教師付き情報のみを必要とし,付加的な知識注入や強い教師付き情報を必要としない。
3つのベンチマークデータセットを用いた実験により,本手法は従来よりも大幅に優れており,実験結果の公正な比較が得られた。
関連論文リスト
- VLMine: Long-Tail Data Mining with Vision Language Models [18.412533708652102]
この研究は、ラベルなしデータのコーパス内の稀な例を識別する問題に焦点を当てている。
本稿では,大規模視覚言語モデル(VLM)に含まれる知識を活用する,シンプルでスケーラブルなデータマイニング手法を提案する。
私たちの実験は、ベースライン技術よりも大きな改善(10%から50%)を示しています。
論文 参考訳(メタデータ) (2024-09-23T19:13:51Z) - HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification [15.129037250680582]
厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。
近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。
本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
論文 参考訳(メタデータ) (2024-07-23T07:31:42Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Object-Aware Self-supervised Multi-Label Learning [9.496981642855769]
マルチラベル学習のためのよりきめ細かい表現を得るために,オブジェクト指向自己スーパービジョン(OASS)法を提案する。
提案手法は,提案しない方式でCSI(Class-Specific Instances)を効率的に生成するために利用することができる。
マルチラベル分類のためのVOC2012データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-14T10:14:08Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - A Universal Representation Transformer Layer for Few-Shot Image
Classification [43.31379752656756]
少ないショット分類は、少数のサンプルで示される場合、目に見えないクラスを認識することを目的としている。
本稿では,多様なデータソースから未確認のクラスやサンプルを抽出するマルチドメイン・少数ショット画像分類の問題点について考察する。
そこで本研究では,メタ学習者がユニバーサルな特徴を活用できるユニバーサル表現変換器層を提案する。
論文 参考訳(メタデータ) (2020-06-21T03:08:00Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。