Fugu-MT 論文翻訳(概要): SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification

論文の概要: SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification

arxiv url: http://arxiv.org/abs/2505.24380v1
Date: Fri, 30 May 2025 09:10:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.872221
Title: SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification
Title（参考訳）: SASP:細粒化鳥画像分類のためのストリップ認識空間認識
Authors: Zheng Wang,
Abstract要約: 本稿では,ストリップ認識型空間知覚に基づく細粒度鳥の画像分類フレームワークを提案する。提案手法は, 拡張知覚アグリゲータ (EPA) とチャネルセマンティックウィービング (CSW) の2つの新しいモジュールを含む。 ResNet-50のバックボーン上に構築されたこのモデルは、空間領域を越えて拡張された構造的特徴のジャンプワイズ接続を可能にする。
参考スコア（独自算出の注目度）: 5.420786129061269
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-grained bird image classification (FBIC) is not only of great significance for ecological monitoring and species identification, but also holds broad research value in the fields of image recognition and fine-grained visual modeling. Compared with general image classification tasks, FBIC poses more formidable challenges: 1) the differences in species size and imaging distance result in the varying sizes of birds presented in the images; 2) complex natural habitats often introduce strong background interference; 3) and highly flexible poses such as flying, perching, or foraging result in substantial intra-class variability. These factors collectively make it difficult for traditional methods to stably extract discriminative features, thereby limiting the generalizability and interpretability of models in real-world applications. To address these challenges, this paper proposes a fine-grained bird classification framework based on strip-aware spatial perception, which aims to capture long-range spatial dependencies across entire rows or columns in bird images, thereby enhancing the model's robustness and interpretability. The proposed method incorporates two novel modules: extensional perception aggregator (EPA) and channel semantic weaving (CSW). Specifically, EPA integrates local texture details with global structural cues by aggregating information across horizontal and vertical spatial directions. CSW further refines the semantic representations by adaptively fusing long-range and short-range information along the channel dimension. Built upon a ResNet-50 backbone, the model enables jump-wise connection of extended structural features across the spatial domain. Experimental results on the CUB-200-2011 dataset demonstrate that our framework achieves significant performance improvements while maintaining architectural efficiency.
Abstract（参考訳）: きめ細かい鳥の画像分類(FBIC)は、生態モニタリングや種同定において重要なだけでなく、画像認識やきめ細かい視覚モデリングの分野でも広く研究されている。一般的な画像分類タスクと比較すると、FBICはより厳しい課題を提起します。 1) 種の大きさと画像距離の違いは, 画像に示される鳥の大きさの変化をもたらす。 2)複雑な自然の生息地は、しばしば強い背景干渉を引き起こす。 3) 飛散, 摂食, 捕食などの柔軟性の高いポーズは, クラス内変動が顕著である。これらの要因は、従来の手法が安定して識別的特徴を抽出することを難しくし、現実世界の応用におけるモデルの一般化可能性や解釈可能性を制限する。これらの課題に対処するために,鳥画像中の行や列全体の長距離空間依存性を捕捉し,モデルの堅牢性と解釈性を高めることを目的とした,ストリップ認識型空間認識に基づくきめ細かい鳥分類フレームワークを提案する。提案手法は, 拡張知覚アグリゲータ (EPA) とチャネルセマンティックウィービング (CSW) の2つの新しいモジュールを含む。具体的には、EPAは、水平方向と垂直方向の情報を集約することで、局所的なテクスチャの詳細をグローバルな構造的手がかりと統合する。 CSWは、チャネル次元に沿って長距離情報と短距離情報を適応的に融合することで、意味表現をさらに洗練する。 ResNet-50のバックボーン上に構築されたこのモデルは、空間領域を越えて拡張された構造的特徴のジャンプワイズ接続を可能にする。 CUB-200-2011データセットの実験結果から,アーキテクチャ効率を保ちながら,我々のフレームワークが大幅な性能向上を実現していることが示された。

関連論文リスト

StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文参考訳（メタデータ） (2026-03-02T11:35:05Z)
Revisiting Aerial Scene Classification on the AID Benchmark [1.529342790344802]
本研究では,航空画像分類のための各種機械学習手法の文献レビューを行う。私たちの調査では,手作り機能から従来のCNNまで,さまざまなアプローチをカバーしています。また,マルチスケールな特徴融合機構を備えた空間的注意力向上CNNであるAerial-Y-Netを設計した。
論文参考訳（メタデータ） (2026-01-26T08:39:02Z)
Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文参考訳（メタデータ） (2025-08-25T14:22:57Z)
AniMer+: Unified Pose and Shape Estimation Across Mammalia and Aves via Family-Aware Transformer [26.738709781346678]
スケーラブルなAniMerフレームワークの拡張バージョンであるAniMer+を紹介します。 AniMer+の重要なイノベーションは、その高容量、家族対応ビジョントランス(ViT)である。 CtrlAni3D for quadrupeds と CtrlAVES3D for birds の2つの大規模な合成データセットを生成した。
論文参考訳（メタデータ） (2025-08-01T03:53:03Z)
DFYP: A Dynamic Fusion Framework with Spectral Channel Attention and Adaptive Operator learning for Crop Yield Prediction [18.24061967822792]
DFYPは、作物収量予測のための新しい動的融合フレームワークである。スペクトルチャネルアテンション、エッジ適応空間モデリング、学習可能な融合機構を組み合わせる。 DFYPはRMSE、MAE、R2の最先端ベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-07-08T10:24:04Z)
Data Augmentation and Resolution Enhancement using GANs and Diffusion Models for Tree Segmentation [49.13393683126712]
都市森林は、環境の質を高め、都市における生物多様性を支援する上で重要な役割を担っている。複雑な地形と異なる衛星センサーやUAV飛行高度による画像解像度の変化により、正確に木を検知することは困難である。低解像度空中画像の品質を高めるため,GANと拡散モデルとドメイン適応を統合した新しいパイプラインを提案する。
論文参考訳（メタデータ） (2025-05-21T03:57:10Z)
RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文参考訳（メタデータ） (2025-05-02T12:21:44Z)
Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-19T09:54:46Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Emphasizing Crucial Features for Efficient Image Restoration [6.204240924744974]
画像復元のための様々な領域の劣化度に適応する枠組みを提案する。具体的には、修復の重要な特徴を強調するために、空間的・周波数的注意機構(SFAM)を設計する。また、上述のコンポーネントをU字型のバックボーンに統合して高品質な画像の復元を行うECFNetを提案する。
論文参考訳（メタデータ） (2024-05-19T07:04:05Z)
IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文参考訳（メタデータ） (2024-03-31T10:01:20Z)
DuAT: Dual-Aggregation Transformer Network for Medical Image Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2022-12-21T07:54:02Z)
AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。 AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文参考訳（メタデータ） (2022-02-18T10:14:45Z)
BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文参考訳（メタデータ） (2022-01-17T18:45:55Z)
Transformer Meets Convolution: A Bilateral Awareness Net-work for Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images [6.460167724233707]
本稿では,依存経路とテクスチャパスを含む相互認知ネットワーク(BANet)を提案する。 BANetは、VFR画像の長距離関係と細かな詳細をキャプチャする。 3つの大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット、ISPRS Potsdam データセット、UAVid データセット)で実施された実験は、BANetの有効性を実証している。
論文参考訳（メタデータ） (2021-06-23T13:57:36Z)
Scale Aware Adaptation for Land-Cover Classification in Remote Sensing Imagery [4.793219747021116]
リモートセンシング画像を用いた土地被覆分類は重要な地球観測課題である。リモートセンシングイメージでディープセグメンテーションモデルをトレーニングするためのベンチマークデータセットは小さい傾向がある。クロスロケーションおよびクロススケールの土地被覆分類を行うためのスケール認識型対人学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-08T05:15:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。