論文の概要: Few-shot Fine-grained Image Classification via Multi-Frequency
Neighborhood and Double-cross Modulation
- arxiv url: http://arxiv.org/abs/2207.08547v1
- Date: Mon, 18 Jul 2022 12:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:13:16.836993
- Title: Few-shot Fine-grained Image Classification via Multi-Frequency
Neighborhood and Double-cross Modulation
- Title(参考訳): 多周波近傍と二重交叉変調によるファインショットきめ細かい画像分類
- Authors: Hegui Zhu, Zhan Gao, Jiayi Wang, Yange Zhou, Chengqing Li
- Abstract要約: MFN(Multi- frequency Neighborhood)とDouble-cross modulation(DCM)を用いたFicNet(FicNet)を提案する。
2つの数ショットタスクのための3つのきめ細かいベンチマークデータセットの実験では、FicNetは最先端の手法と比較して優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 10.713103274329843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional fine-grained image classification typically relies on large-scale
training samples with annotated ground-truth. However, some sub-categories may
have few available samples in real-world applications. In this paper, we
propose a novel few-shot fine-grained image classification network (FicNet)
using multi-frequency Neighborhood (MFN) and double-cross modulation (DCM).
Module MFN is adopted to capture the information in spatial domain and
frequency domain. Then, the self-similarity and multi-frequency components are
extracted to produce multi-frequency structural representation. DCM employs
bi-crisscross component and double 3D cross-attention components to modulate
the embedding process by considering global context information and subtle
relationship between categories, respectively. The comprehensive experiments on
three fine-grained benchmark datasets for two few-shot tasks verify that FicNet
has excellent performance compared to the state-of-the-art methods. Especially,
the experiments on two datasets, "Caltech-UCSD Birds" and "Stanford Cars", can
obtain classification accuracy 93.17\% and 95.36\%, respectively. They are even
higher than that the general fine-grained image classification methods can
achieve.
- Abstract(参考訳): 従来のきめ細かい画像分類は、通常、注釈付き接地構造を持つ大規模な訓練サンプルに依存している。
しかし、いくつかのサブカテゴリは実世界のアプリケーションで利用可能なサンプルが少ない可能性がある。
本稿では,MFN(Multiency Neighborhood)とDouble-cross modulation(DCM)を用いた,数発のきめ細かい画像分類ネットワーク(FicNet)を提案する。
モジュールMFNは、空間領域と周波数領域の情報をキャプチャするために使用される。
そして、自己相似性および多周波成分を抽出して多周波構造表現を生成する。
dcmはbi-crisscrossコンポーネントとdouble 3d cross-attentionコンポーネントを使用して、グローバルコンテキスト情報とカテゴリ間の微妙な関係をそれぞれ考慮して埋め込みプロセスを変調する。
2つの数ショットタスクのための3つのきめ細かいベンチマークデータセットに関する包括的な実験では、FicNetは最先端の手法と比較して優れたパフォーマンスを示している。
特に、"Caltech-UCSD Birds"と"Stanford Cars"の2つのデータセットの実験では、それぞれ93.17\%と95.36\%の分類精度が得られる。
これらは、一般的な細粒度画像分類法が達成できることよりも高い。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - A Unified Framework for Generalized Low-Shot Medical Image Segmentation
with Scarce Data [24.12765716392381]
距離距離距離距離学習(DML)に基づく医用画像分割の一般化のための統一的枠組みを提案する。
DMLでは,各カテゴリの多モード混合表現を学習し,画素の深層埋め込みとカテゴリ表現との間の余弦距離に基づいて密接な予測を行う。
脳MRIおよび腹部CTデータセットの実験において,提案手法は標準DNN(3D U-Net)法と古典的登録(ANT)法に対して,低ショットセグメンテーションにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-18T13:01:06Z) - Disentangled Feature Representation for Few-shot Image Classification [64.40410801469106]
そこで本研究では,DFRと呼ばれる新しいDistangled Feature Representationフレームワークを提案する。
DFRは、分類枝によってモデル化される識別的特徴を、変動枝のクラス非関連成分から適応的に分離することができる。
一般的に、一般的な深層数ショット学習手法のほとんどが分類ブランチとしてプラグインできるため、DFRは様々な数ショットタスクのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-09-26T09:53:11Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Reconciliation of Statistical and Spatial Sparsity For Robust Image and
Image-Set Classification [27.319334479994787]
分類のための画像や画像セットデータをモデル化するために,textitJ3Sと呼ばれる新しい統計空間スパース表現を提案する。
本稿では,J3Sモデルに基づく結合スパース符号化問題の解法を提案する。
実験の結果,提案手法はFMD, UIUC, ETH-80, YTCデータベース上での競合手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-06-01T06:33:24Z) - BSNet: Bi-Similarity Network for Few-shot Fine-grained Image
Classification [35.50808687239441]
いわゆるtextitBi-Similarity Network (textitBSNet) を提案する。
両相似モジュールは、多様な特性の2つの類似度尺度に従って特徴写像を学習する。
このようにして、モデルはより差別的で類似度に富んだ特徴を、よりきめ細かい画像の少ないショットから学習することができる。
論文 参考訳(メタデータ) (2020-11-29T08:38:17Z) - A Universal Representation Transformer Layer for Few-Shot Image
Classification [43.31379752656756]
少ないショット分類は、少数のサンプルで示される場合、目に見えないクラスを認識することを目的としている。
本稿では,多様なデータソースから未確認のクラスやサンプルを抽出するマルチドメイン・少数ショット画像分類の問題点について考察する。
そこで本研究では,メタ学習者がユニバーサルな特徴を活用できるユニバーサル表現変換器層を提案する。
論文 参考訳(メタデータ) (2020-06-21T03:08:00Z) - Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。
CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。
モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文 参考訳(メタデータ) (2020-05-19T01:16:31Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。