論文の概要: Multi-scale Activation, Refinement, and Aggregation: Exploring Diverse Cues for Fine-Grained Bird Recognition
- arxiv url: http://arxiv.org/abs/2504.09215v1
- Date: Sat, 12 Apr 2025 13:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:54.827543
- Title: Multi-scale Activation, Refinement, and Aggregation: Exploring Diverse Cues for Fine-Grained Bird Recognition
- Title(参考訳): マルチスケール・アクティベーション・リファインメント・アグリゲーション:細粒化鳥認識のためのディバースキューを探る
- Authors: Zhicheng Zhang, Hao Tang, Jinhui Tang,
- Abstract要約: Fine-Grained Bird Recognition (FGBR) が注目されている。
近年の研究では、平易なViTモデルの受容領域が限られており、表現豊かさを妨げていることが示されている。
MDCM(Multi-scale Diverse Cues Modeling)と呼ばれる新しいFGBRフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.99227153038734
- License:
- Abstract: Given the critical role of birds in ecosystems, Fine-Grained Bird Recognition (FGBR) has gained increasing attention, particularly in distinguishing birds within similar subcategories. Although Vision Transformer (ViT)-based methods often outperform Convolutional Neural Network (CNN)-based methods in FGBR, recent studies reveal that the limited receptive field of plain ViT model hinders representational richness and makes them vulnerable to scale variance. Thus, enhancing the multi-scale capabilities of existing ViT-based models to overcome this bottleneck in FGBR is a worthwhile pursuit. In this paper, we propose a novel framework for FGBR, namely Multi-scale Diverse Cues Modeling (MDCM), which explores diverse cues at different scales across various stages of a multi-scale Vision Transformer (MS-ViT) in an "Activation-Selection-Aggregation" paradigm. Specifically, we first propose a multi-scale cue activation module to ensure the discriminative cues learned at different stage are mutually different. Subsequently, a multi-scale token selection mechanism is proposed to remove redundant noise and highlight discriminative, scale-specific cues at each stage. Finally, the selected tokens from each stage are independently utilized for bird recognition, and the recognition results from multiple stages are adaptively fused through a multi-scale dynamic aggregation mechanism for final model decisions. Both qualitative and quantitative results demonstrate the effectiveness of our proposed MDCM, which outperforms CNN- and ViT-based models on several widely-used FGBR benchmarks.
- Abstract(参考訳): 生態系において鳥類が重要な役割を担っていることから、FGBR(Final-Grained Bird Recognition)は、特に類似の亜カテゴリー内での鳥類の識別において注目を集めている。
ビジョントランスフォーマー(ViT)ベースの手法は、FGBRにおける畳み込みニューラルネットワーク(CNN)ベースの手法よりも優れていることが多いが、最近の研究では、平易なViTモデルの受容領域が表現豊かさを妨げ、分散を拡大するのに脆弱であることが示されている。
したがって、既存のVTベースのモデルのマルチスケール機能を強化して、FGBRにおけるこのボトルネックを克服することは、注目に値する。
本稿では,FGBRの新しいフレームワークであるMDCM(Multi-scale Diverse Cues Modeling)を提案し,マルチスケールビジョントランスフォーマ(MS-ViT)の様々な段階における多様なキューを「アクティベーション・セレクション・アグリゲーション(Activation-Selection-Aggregation)」パラダイムで探索する。
具体的には、まず、異なる段階で学習した識別的手がかりが相互に異なることを保証するために、マルチスケールキューアクティベーションモジュールを提案する。
その後、冗長ノイズを除去し、各ステージにおける識別的、スケール特異的な手がかりを強調するために、マルチスケールトークン選択機構を提案する。
最後に、各段階から選択されたトークンを独立して鳥の認識に利用し、最終モデル決定のためのマルチスケールダイナミックアグリゲーション機構により、複数の段階からの認識結果を適応的に融合させる。
定性的かつ定量的な結果から提案したMDCMの有効性が示され、CNNおよびVTベースのモデルよりも広く使われているFGBRベンチマークで優れていた。
関連論文リスト
- Prompt as Free Lunch: Enhancing Diversity in Source-Free Cross-domain Few-shot Learning through Semantic-Guided Prompting [9.116108409344177]
ソースフリーのクロスドメイン数ショット学習タスクは、最小限のサンプルを使用して、トレーニング済みのモデルをターゲットのドメインに転送することを目的としている。
本稿では2つのフェーズに分けられるSeGD-VPTフレームワークを提案する。
最初のステップは、各サポートサンプルに多様性プロンプトを追加し、様々な入力を生成し、サンプルの多様性を高めることで、機能の多様性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-01T11:00:38Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - CoinSeg: Contrast Inter- and Intra- Class Representations for
Incremental Segmentation [85.13209973293229]
クラスインクリメンタルセマンティックセグメンテーションは、モデルの安定性と可塑性のバランスをとることを目的としている。
インクリメンタル(CoinSeg)のためのコントラスト間およびクラス内表現を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:08:49Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - M2Former: Multi-Scale Patch Selection for Fine-Grained Visual
Recognition [4.621578854541836]
既存のViTモデルにおけるマルチスケール機能を改善するために,マルチスケールパッチ選択(MSPS)を提案する。
具体的には、MSPSは視覚変換器(MS-ViT)の異なる段階で異なるスケールの正解パッチを選択する。
さらに、クラストークン転送(CTT)とマルチスケールクロスアテンション(MSCA)を導入し、選択したマルチスケールパッチ間のクロススケールインタラクションをモデル化し、モデル決定でそれらを完全に反映する。
論文 参考訳(メタデータ) (2023-08-04T06:41:35Z) - Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。
HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。
クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文 参考訳(メタデータ) (2022-12-30T10:54:29Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Disentangled Variational Autoencoder based Multi-Label Classification
with Covariance-Aware Multivariate Probit Model [10.004081409670516]
マルチラベル分類は、複数のターゲットの存在と欠如を予測する上で難しい課題である。
本稿では,ラベル相関だけでなく,遅延埋め込み空間を効果的に学習するマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-12T23:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。