論文の概要: Less yet robust: crucial region selection for scene recognition
- arxiv url: http://arxiv.org/abs/2409.14741v2
- Date: Sun, 20 Oct 2024 11:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:12:18.897848
- Title: Less yet robust: crucial region selection for scene recognition
- Title(参考訳): あまり頑丈ではない:シーン認識のための重要な地域選択
- Authors: Jianqi Zhang, Mengxuan Wang, Jingyao Wang, Lingyu Si, Changwen Zheng, Fanjiang Xu,
- Abstract要約: 高次特徴を持つ最も重要かつロバストな領域を同定する適応的選択機構を提案する。
また,本モデルの有効性を評価するために,水中地形分類データセットを構築した。
- 参考スコア(独自算出の注目度): 7.276549978607394
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene recognition, particularly for aerial and underwater images, often suffers from various types of degradation, such as blurring or overexposure. Previous works that focus on convolutional neural networks have been shown to be able to extract panoramic semantic features and perform well on scene recognition tasks. However, low-quality images still impede model performance due to the inappropriate use of high-level semantic features. To address these challenges, we propose an adaptive selection mechanism to identify the most important and robust regions with high-level features. Thus, the model can perform learning via these regions to avoid interference. implement a learnable mask in the neural network, which can filter high-level features by assigning weights to different regions of the feature matrix. We also introduce a regularization term to further enhance the significance of key high-level feature regions. Different from previous methods, our learnable matrix pays extra attention to regions that are important to multiple categories but may cause misclassification and sets constraints to reduce the influence of such regions.This is a plug-and-play architecture that can be easily extended to other methods. Additionally, we construct an Underwater Geological Scene Classification dataset to assess the effectiveness of our model. Extensive experimental results demonstrate the superiority and robustness of our proposed method over state-of-the-art techniques on two datasets.
- Abstract(参考訳): 特に空中画像や水中画像のシーン認識は、ぼやけや露出過多など、様々な種類の劣化に悩まされることが多い。
畳み込みニューラルネットワークに焦点を当てたこれまでの研究は、パノラマ的なセマンティックな特徴を抽出し、シーン認識タスクでうまく機能できることが示されている。
しかし、高レベルのセマンティックな特徴が不適切であるために、低画質の画像はモデル性能を妨げている。
これらの課題に対処するために,高レベルの特徴を持つ最も重要かつ堅牢な領域を特定する適応的な選択機構を提案する。
したがって、モデルはこれらの領域を通して学習を行い、干渉を避けることができる。
ニューラルネットワークに学習可能なマスクを実装することで、特徴行列の異なる領域に重みを割り当てることで、ハイレベルな特徴をフィルタリングすることができる。
また、重要な高レベル特徴領域の重要性をさらに高めるための正規化用語も導入する。
従来の手法と異なり,学習可能な行列は,複数のカテゴリに重要な領域に注意を払っているが,誤分類を引き起こし,そのような領域の影響を減らすために制約を設定する場合がある。
さらに,本モデルの有効性を評価するために,水中地形分類データセットを構築した。
2つのデータセット上での最先端技術よりも,提案手法の優位性とロバスト性を示す。
関連論文リスト
- Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-03T07:32:46Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - Towards Hierarchical Regional Transformer-based Multiple Instance
Learning [2.16656895298847]
本稿では,従来の学習注意機構を,地域的な視覚変換装置にインスパイアされた自己認識機構に置き換える,トランスフォーマーに基づくマルチインスタンス学習手法を提案する。
本稿では,地域パッチ情報を融合してスライドレベルの予測を導出し,この地域アグリゲーションをどのように積み重ねて,異なる距離における特徴を階層的に処理するかを示す。
本手法は,2つの病理組織学的データセットのベースライン上での性能を著しく向上させることができ,今後の研究に向けての有望な方向に向かっている。
論文 参考訳(メタデータ) (2023-08-24T08:19:15Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - DFR: Deep Feature Reconstruction for Unsupervised Anomaly Segmentation [24.52418722578279]
本論文では,非監視型異常セグメンテーション手法を提案する。
画像の小さな領域や限られた領域の異常を検出し、分類することができる。
複数のベンチマークデータセットで最先端のパフォーマンスを向上する。
論文 参考訳(メタデータ) (2020-12-13T18:30:51Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z) - Attentive CutMix: An Enhanced Data Augmentation Approach for Deep
Learning Based Image Classification [58.20132466198622]
そこで我々は,CutMixに基づく自然拡張拡張戦略であるAttentive CutMixを提案する。
各トレーニングイテレーションにおいて、特徴抽出器から中間注意マップに基づいて最も記述性の高い領域を選択する。
提案手法は単純かつ有効であり,実装が容易であり,ベースラインを大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-03-29T15:01:05Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。