論文の概要: Hierarchical Mask-Enhanced Dual Reconstruction Network for Few-Shot Fine-Grained Image Classification
- arxiv url: http://arxiv.org/abs/2506.20263v1
- Date: Wed, 25 Jun 2025 09:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.674139
- Title: Hierarchical Mask-Enhanced Dual Reconstruction Network for Few-Shot Fine-Grained Image Classification
- Title(参考訳): Few-Shot Fine-Grained Image Classificationのための階層型マスク強化デュアル再構成ネットワーク
- Authors: Ning Luo, Meiyin Hu, Huan Wan, Yanyan Yang, Zhuohang Jiang, Xin Wei,
- Abstract要約: 階層型マスク強化デュアルリコンストラクションネットワーク(HMDRN)を提案する。
HMDRNは、異なるネットワーク階層からの補完的な視覚情報を活用する二重層機能再構成と融合モジュールを組み込んでいる。
3つの挑戦的なきめ細かいデータセットの実験は、HDRNが最先端の手法を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 7.4334395431083715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot fine-grained image classification (FS-FGIC) presents a significant challenge, requiring models to distinguish visually similar subclasses with limited labeled examples. Existing methods have critical limitations: metric-based methods lose spatial information and misalign local features, while reconstruction-based methods fail to utilize hierarchical feature information and lack mechanisms to focus on discriminative regions. We propose the Hierarchical Mask-enhanced Dual Reconstruction Network (HMDRN), which integrates dual-layer feature reconstruction with mask-enhanced feature processing to improve fine-grained classification. HMDRN incorporates a dual-layer feature reconstruction and fusion module that leverages complementary visual information from different network hierarchies. Through learnable fusion weights, the model balances high-level semantic representations from the last layer with mid-level structural details from the penultimate layer. Additionally, we design a spatial binary mask-enhanced transformer self-reconstruction module that processes query features through adaptive thresholding while maintaining complete support features, enhancing focus on discriminative regions while filtering background noise. Extensive experiments on three challenging fine-grained datasets demonstrate that HMDRN consistently outperforms state-of-the-art methods across Conv-4 and ResNet-12 backbone architectures. Comprehensive ablation studies validate the effectiveness of each proposed component, revealing that dual-layer reconstruction enhances inter-class discrimination while mask-enhanced transformation reduces intra-class variations. Visualization results provide evidence of HMDRN's superior feature reconstruction capabilities.
- Abstract(参考訳): FS-FGIC (Few-shot fine-grained image classification) は、視覚的に類似したサブクラスを限定的なラベル付き例で識別するモデルを必要とする重要な課題である。
既存の手法には限界があり、計量法は空間情報を失い、局所的特徴を誤るが、再構成法は階層的特徴情報の利用に失敗し、識別領域に焦点を当てるメカニズムが欠如している。
マスク強化特徴処理と二重層特徴再構成を統合した階層型マスク強化デュアル再構成ネットワーク(HMDRN)を提案する。
HMDRNは、異なるネットワーク階層からの補完的な視覚情報を活用する二重層機能再構成と融合モジュールを組み込んでいる。
学習可能な融合重みによって、モデルは最終層からの高レベルの意味表現と、最後層からの中レベルの構造的詳細とをバランスさせる。
さらに,適応しきい値を処理し,完全なサポート機能を維持しつつ,背景雑音をフィルタリングしながら識別領域に焦点を絞った空間二乗マスク付変圧器自己再構成モジュールを設計する。
3つの挑戦的なきめ細かいデータセットに関する大規模な実験は、HMDRNがConv-4とResNet-12のバックボーンアーキテクチャで、常に最先端のメソッドより優れていることを示している。
包括的アブレーション研究は,各成分の有効性を検証し,二重層再構成によりクラス間識別が促進され,マスク強化変換によりクラス内変異が減少することを示した。
可視化結果は、HMDRNの優れた特徴再構成能力の証拠となる。
関連論文リスト
- CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - Dual-branch Graph Feature Learning for NLOS Imaging [51.31554007495926]
非視線イメージング(NLOS)は、直接見えない閉塞されたシーンを明らかにする機能を提供する。
xnet法は、アルベド情報回復に特化したアルベド中心の再構築ブランチと、幾何学的構造を抽出する深さ中心の再構築ブランチを統合する。
提案手法は,合成データと実データの間で,既存の手法の中で最も高い性能を実現する。
論文 参考訳(メタデータ) (2025-02-27T01:49:00Z) - Hybrid Feature Collaborative Reconstruction Network for Few-Shot Fine-Grained Image Classification [6.090855292102877]
画像分類のためのHFCR-Net(Hybrid Feature Collaborative Restruction Network)を設計する。
チャネルの特徴と空間的特徴を融合させ,クラス間差を増大させる。
広範に使われている3つのきめ細かいデータセットに対する実験は、我々のアプローチの有効性と優位性を示している。
論文 参考訳(メタデータ) (2024-07-02T10:14:00Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。