論文の概要: Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification
- arxiv url: http://arxiv.org/abs/2508.06959v1
- Date: Sat, 09 Aug 2025 12:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.628135
- Title: Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification
- Title(参考訳): 周波数を超える:細粒度視覚分類のための空間分解レンズを通して小包を見る
- Authors: Qin Xu, Lili Zhu, Xiaoxia Cheng, Bo Jiang,
- Abstract要約: 本稿では,空間領域における低レベル細部および高レベル意味論の表現能力を適応的に向上する Subtle-Cue Oriented Perception Engine (SCOPE) を提案する。
SCOPEは4つの一般的なきめ細かい画像分類ベンチマークで新しい最先端を実現する。
- 参考スコア(独自算出の注目度): 8.936378000130812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The crux of resolving fine-grained visual classification (FGVC) lies in capturing discriminative and class-specific cues that correspond to subtle visual characteristics. Recently, frequency decomposition/transform based approaches have attracted considerable interests since its appearing discriminative cue mining ability. However, the frequency-domain methods are based on fixed basis functions, lacking adaptability to image content and unable to dynamically adjust feature extraction according to the discriminative requirements of different images. To address this, we propose a novel method for FGVC, named Subtle-Cue Oriented Perception Engine (SCOPE), which adaptively enhances the representational capability of low-level details and high-level semantics in the spatial domain, breaking through the limitations of fixed scales in the frequency domain and improving the flexibility of multi-scale fusion. The core of SCOPE lies in two modules: the Subtle Detail Extractor (SDE), which dynamically enhances subtle details such as edges and textures from shallow features, and the Salient Semantic Refiner (SSR), which learns semantically coherent and structure-aware refinement features from the high-level features guided by the enhanced shallow features. The SDE and SSR are cascaded stage-by-stage to progressively combine local details with global semantics. Extensive experiments demonstrate that our method achieves new state-of-the-art on four popular fine-grained image classification benchmarks.
- Abstract(参考訳): きめ細かい視覚分類(FGVC)の欠如は、微妙な視覚特性に対応する識別的およびクラス固有の手がかりを捉えることである。
近年、周波数分解/変換に基づくアプローチは、識別的キューマイニング能力の出現以来、かなりの関心を集めている。
しかし、周波数領域法は、固定基底関数に基づいており、画像内容への適応性に欠け、異なる画像の識別要求に応じて特徴抽出を動的に調整できない。
そこで本稿では,空間領域における低レベル細部と高レベル意味論の表現能力を適応的に向上し,周波数領域における固定スケールの限界を突破し,マルチスケール融合の柔軟性を向上させることを目的とした,FGVCの新たな手法であるSubtle-Cue Oriented Perception Engine(SCOPE)を提案する。
SCOPEのコアは、浅い特徴からエッジやテクスチャなどの微妙な詳細を動的に強化するSubtle Detail Extractor (SDE)と、浅い特徴によってガイドされる高レベルの特徴からセマンティックコヒーレントかつ構造を意識した洗練された特徴を学ぶSSR(Salient Semantic Refiner)の2つのモジュールにある。
SDEとSSRは段階的にステージ分けされ、局所的な詳細とグローバルな意味論を段階的に組み合わせている。
広汎な実験により,提案手法は4つの画像分類ベンチマークにおいて,新たな最先端性を実現することを示した。
関連論文リスト
- FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Image Forgery Localization via Guided Noise and Multi-Scale Feature Aggregation [13.610095493539397]
IFLのためのガイド付きマルチスケール機能集約ネットワークを提案する。
異なる種類の偽音下でのノイズ特徴を学習するために,有効なノイズ抽出モジュールを開発する。
そして、動的畳み込みを用いて複数のスケールでRGBと雑音機能を適応的に集約する特徴集約モジュール(FAM)を設計する。
最後に,Atrous Residual Pyramid Module (ARPM)を提案する。
論文 参考訳(メタデータ) (2024-11-17T11:50:09Z) - An Advanced Features Extraction Module for Remote Sensing Image Super-Resolution [0.5461938536945723]
チャネル・アンド・スペースアテンション特徴抽出(CSA-FE)と呼ばれる高度な特徴抽出モジュールを提案する。
提案手法は,高頻度情報を含む特定のチャネルや空間的位置に着目し,関連する特徴に焦点を合わせ,無関係な特徴を抑えるのに役立つ。
本モデルは,既存モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-07T18:15:51Z) - DiffSpectralNet : Unveiling the Potential of Diffusion Models for
Hyperspectral Image Classification [6.521187080027966]
我々は拡散と変圧器技術を組み合わせたDiffSpectralNetと呼ばれる新しいネットワークを提案する。
まず,拡散モデルに基づく教師なし学習フレームワークを用いて,高レベル・低レベルのスペクトル空間的特徴を抽出する。
この拡散法はスペクトル空間の特徴を多様かつ有意義に抽出し,HSI分類の改善につながる。
論文 参考訳(メタデータ) (2023-10-29T15:26:37Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Fine-grained Visual Classification with High-temperature Refinement and
Background Suppression [0.19336815376402716]
HERBS(High-Temperature Refinement and background Suppression)と呼ばれる新しいネットワークを提案する。
HERBSは、様々なスケールの特徴を融合させ、きめ細かい視覚分類のために、背景雑音、識別的特徴を適切なスケールで抑制する。
提案手法は, CUB-200-2011 および NABirds ベンチマークにおける最先端性能を達成し, 両データセットの精度は 93% を超えた。
論文 参考訳(メタデータ) (2023-03-11T16:43:59Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。