論文の概要: Saccadic Vision for Fine-Grained Visual Classification
- arxiv url: http://arxiv.org/abs/2509.15688v1
- Date: Fri, 19 Sep 2025 07:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.041934
- Title: Saccadic Vision for Fine-Grained Visual Classification
- Title(参考訳): 細粒度視覚分類のためのサッケードビジョン
- Authors: Johann Schmidt, Sebastian Stober, Joachim Denzler, Paul Bodesheim,
- Abstract要約: きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
- 参考スコア(独自算出の注目度): 10.681604440788854
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-grained visual classification (FGVC) requires distinguishing between visually similar categories through subtle, localized features - a task that remains challenging due to high intra-class variability and limited inter-class differences. Existing part-based methods often rely on complex localization networks that learn mappings from pixel to sample space, requiring a deep understanding of image content while limiting feature utility for downstream tasks. In addition, sampled points frequently suffer from high spatial redundancy, making it difficult to quantify the optimal number of required parts. Inspired by human saccadic vision, we propose a two-stage process that first extracts peripheral features (coarse view) and generates a sample map, from which fixation patches are sampled and encoded in parallel using a weight-shared encoder. We employ contextualized selective attention to weigh the impact of each fixation patch before fusing peripheral and focus representations. To prevent spatial collapse - a common issue in part-based methods - we utilize non-maximum suppression during fixation sampling to eliminate redundancy. Comprehensive evaluation on standard FGVC benchmarks (CUB-200-2011, NABirds, Food-101 and Stanford-Dogs) and challenging insect datasets (EU-Moths, Ecuador-Moths and AMI-Moths) demonstrates that our method achieves comparable performance to state-of-the-art approaches while consistently outperforming our baseline encoder.
- Abstract(参考訳): きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存の部分ベースの手法は、しばしば、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存し、下流タスクの機能的ユーティリティを制限しながら、画像の内容の深い理解を必要とする。
加えて、サンプリングされた点はしばしば空間的冗長性に悩まされ、必要な部分の最適な数の定量化が困難になる。
本研究では,まず周辺特徴(粗視)を抽出してサンプルマップを生成し,重み付きエンコーダを用いて固定パッチを並列にサンプリング,エンコードする2段階のプロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
空間崩壊を防止するため,固定サンプリング中の非最大抑制を利用して冗長性を除去する。
標準FGVCベンチマーク(CUB-200-2011,NABirds,Food-101,Stanford-Dogs)とEU-Moths,Ecuador-Moths,AMI-Moths)の総合的な評価により,本手法は最先端の手法に匹敵する性能を示し,ベースラインエンコーダを一貫して上回っている。
関連論文リスト
- Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification [8.936378000130812]
本稿では,空間領域における低レベル細部および高レベル意味論の表現能力を適応的に向上する Subtle-Cue Oriented Perception Engine (SCOPE) を提案する。
SCOPEは4つの一般的なきめ細かい画像分類ベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2025-08-09T12:13:40Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - MC-LCR: Multi-modal contrastive classification by locally correlated
representations for effective face forgery detection [11.124150983521158]
局所的関連表現を用いたマルチモーダルコントラスト分類法を提案する。
我々のMC-LCRは、空間領域と周波数領域の両方から真偽顔と偽顔の暗黙の局所的不一致を増幅することを目的としている。
我々は最先端の性能を達成し,本手法の堅牢性と一般化を実証する。
論文 参考訳(メタデータ) (2021-10-07T09:24:12Z) - Mask-Guided Feature Extraction and Augmentation for Ultra-Fine-Grained
Visual Categorization [15.627971638835948]
超微細きめの視覚分類(Ultra-FGVC)問題も検討されている。
FGVCは、同じ種からオブジェクトを分類することを目的としており、Ultra-FGVCは、超微細な粒度で画像を分類するより難しい問題をターゲットにしている。
Ultra-FGVCの課題は主に2つの側面から成り立っている。
本稿では,画像の識別・情報領域を抽出するマスク誘導特徴抽出と特徴拡張手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T06:57:05Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。