論文の概要: Learning Attentive Pairwise Interaction for Fine-Grained Classification
- arxiv url: http://arxiv.org/abs/2002.10191v1
- Date: Mon, 24 Feb 2020 12:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 04:05:16.206425
- Title: Learning Attentive Pairwise Interaction for Fine-Grained Classification
- Title(参考訳): 細粒度分類のための学習用ペアワイズインタラクション
- Authors: Peiqin Zhuang, Yali Wang, Yu Qiao
- Abstract要約: 本稿では,細粒度分類のための簡易かつ効果的な監視ペアワイド・インタラクション・ネットワーク(API-Net)を提案する。
API-Netはまず相互機能ベクトルを学習し、入力ペアのセマンティックな違いをキャプチャする。
そして、この相互ベクトルと個々のベクトルを比較して、各入力画像のゲートを生成する。
詳細な分類において,5つの人気のあるベンチマークについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 53.66543841939087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained classification is a challenging problem, due to subtle
differences among highly-confused categories. Most approaches address this
difficulty by learning discriminative representation of individual input image.
On the other hand, humans can effectively identify contrastive clues by
comparing image pairs. Inspired by this fact, this paper proposes a simple but
effective Attentive Pairwise Interaction Network (API-Net), which can
progressively recognize a pair of fine-grained images by interaction.
Specifically, API-Net first learns a mutual feature vector to capture semantic
differences in the input pair. It then compares this mutual vector with
individual vectors to generate gates for each input image. These distinct gate
vectors inherit mutual context on semantic differences, which allow API-Net to
attentively capture contrastive clues by pairwise interaction between two
images. Additionally, we train API-Net in an end-to-end manner with a score
ranking regularization, which can further generalize API-Net by taking feature
priorities into account. We conduct extensive experiments on five popular
benchmarks in fine-grained classification. API-Net outperforms the recent SOTA
methods, i.e., CUB-200-2011 (90.0%), Aircraft(93.9%), Stanford Cars (95.3%),
Stanford Dogs (90.3%), and NABirds (88.1%).
- Abstract(参考訳): きめ細かい分類は、高度に強調されたカテゴリ間で微妙な違いがあるため、難しい問題である。
ほとんどのアプローチでは、個々の入力画像の識別表現を学ぶことでこの困難に対処している。
一方、画像ペアを比較することで、人間は対照的な手がかりを効果的に識別することができる。
この事実にインスパイアされた本研究では,インタラクションによって一対のきめ細かいイメージを段階的に認識できる,シンプルで効果的な監視ペアワイドインタラクションネットワーク(API-Net)を提案する。
具体的には、API-Netはまず、入力ペアのセマンティックな違いをキャプチャする相互機能ベクトルを学習する。
次に、この相互ベクトルを個々のベクトルと比較し、入力画像ごとにゲートを生成する。
これらの異なるゲートベクトルは、意味的差異の相互文脈を継承しており、api-netは2つの画像間のペアリーな相互作用によって対照的な手がかりを注意深く捉えることができる。
さらに、api-netをエンドツーエンドでトレーニングし、スコアランキングの正規化を行い、機能優先事項を考慮してapi-netをさらに一般化します。
我々は,5つのベンチマークの詳細な分類実験を行った。
api-net は最近の sota メソッド、すなわち cub-200-2011 (90.0%), aircraft (93.9%), stanford cars (95.3%), stanford dogs (90.3%), nabirds (88.1%) よりも優れている。
関連論文リスト
- Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - Pairwise Comparison Network for Remote Sensing Scene Classification [0.0]
本稿では,ペアワイズ選択とペアワイズ表現という2つの主要なステップを含むペアワイズ比較ネットワークを提案する。
提案するネットワークは、まず、類似した画像対を選択し、その後、ペアワイズ表現で画像対を表現する。
各画像の情報を強調するために自己表現を導入し、画像ペア間の微妙な差異を捉えるために相互表現を提案する。
論文 参考訳(メタデータ) (2022-05-17T07:31:36Z) - iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition [33.2800417526215]
画像分類は,過去10年間の視覚的表現学習における主要なアプローチである。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において、有望なパフォーマンスを示すようになった。
本稿では,2つの学習課題を効果的に橋渡しする3つの適応型深層融合法を提案する。
論文 参考訳(メタデータ) (2022-04-22T15:27:21Z) - Clicking Matters:Towards Interactive Human Parsing [60.35351491254932]
この研究は、対話的な環境下での人間の解析課題に取り組む最初の試みである。
ベンチマークLIPでは85% mIoU,PASCAL-Person-Partでは80% mIoU,Helenでは75% mIoU,クラス毎のクリック数は1.95,3.02,2.84,1.09であった。
論文 参考訳(メタデータ) (2021-11-11T11:47:53Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。