論文の概要: Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images
- arxiv url: http://arxiv.org/abs/2412.02197v1
- Date: Tue, 03 Dec 2024 06:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:36.467412
- Title: Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images
- Title(参考訳): 低解像度画像との相互作用とマルチスケール特徴抽出のためのカスケード型マルチスケールアテンション
- Authors: Xiangyong Lu, Masanori Suganuma, Takayuki Okatani,
- Abstract要約: 本稿では,低解像度入力を効果的に処理するための新しいアテンション機構,CMSAを提案する。
このアーキテクチャは、異なるスケールにわたる機能の効果的なハンドリングを可能にし、人間のポーズ推定のようなタスクを実行するモデルの能力を高める。
実験の結果,提案手法はパラメータが少なく,既存の最先端手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 20.140898354987353
- License:
- Abstract: In real-world applications of image recognition tasks, such as human pose estimation, cameras often capture objects, like human bodies, at low resolutions. This scenario poses a challenge in extracting and leveraging multi-scale features, which is often essential for precise inference. To address this challenge, we propose a new attention mechanism, named cascaded multi-scale attention (CMSA), tailored for use in CNN-ViT hybrid architectures, to handle low-resolution inputs effectively. The design of CMSA enables the extraction and seamless integration of features across various scales without necessitating the downsampling of the input image or feature maps. This is achieved through a novel combination of grouped multi-head self-attention mechanisms with window-based local attention and cascaded fusion of multi-scale features over different scales. This architecture allows for the effective handling of features across different scales, enhancing the model's ability to perform tasks such as human pose estimation, head pose estimation, and more with low-resolution images. Our experimental results show that the proposed method outperforms existing state-of-the-art methods in these areas with fewer parameters, showcasing its potential for broad application in real-world scenarios where capturing high-resolution images is not feasible. Code is available at https://github.com/xyongLu/CMSA.
- Abstract(参考訳): 人間のポーズ推定のような画像認識タスクの現実の応用では、カメラは低解像度で人体のような物体をキャプチャすることが多い。
このシナリオは、しばしば正確な推論に不可欠であるマルチスケール機能の抽出と活用において、課題となる。
この課題に対処するため,CNN-ViTハイブリッドアーキテクチャにおいて,低分解能入力を効果的に処理するために,CMSA (Casscaded Multi-scale attention) という新しいアテンション機構を提案する。
CMSAの設計により、入力画像や特徴マップのダウンサンプリングを必要とせずに、様々なスケールで機能の抽出とシームレスな統合が可能になる。
これは、グループ化されたマルチヘッド自己注意機構とウィンドウベースのローカルアテンションと、異なるスケールでのマルチスケール特徴のカスケード融合を組み合わせることで実現される。
このアーキテクチャにより、さまざまなスケールの機能を効果的に扱えるようになり、人間のポーズ推定や頭ポーズ推定といったタスクを低解像度の画像で実行できるようになる。
実験の結果,提案手法はパラメータが少ない領域において既存の最先端手法よりも優れており,高解像度画像のキャプチャが実現不可能な実世界のシナリオにおいて,幅広い応用の可能性を示している。
コードはhttps://github.com/xyongLu/CMSAで入手できる。
関連論文リスト
- Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation [4.227991281224256]
本稿では,計算効率を犠牲にすることなく,MambaとTransformerの相補的な利点を十分に活用することを提案する。
マンバの選択的走査機構は空間モデリングに焦点をあて、長距離空間依存のキャプチャを可能にする。
トランスフォーマーの自己保持機構は、画像の空間次元と二次的な成長の重荷を回避し、チャネルモデリングに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-20T12:36:34Z) - Multi-scale Unified Network for Image Classification [33.560003528712414]
CNNは、実世界のマルチスケール画像入力を扱う際に、性能と計算効率において顕著な課題に直面している。
本稿では,マルチスケール,統一ネットワーク,スケール不変制約からなるMultiscale Unified Network(MUSN)を提案する。
MUSNは精度が44.53%向上し、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。
論文 参考訳(メタデータ) (2024-03-27T06:40:26Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task
Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。
我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。
MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文 参考訳(メタデータ) (2022-11-06T14:58:21Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Efficient and Accurate Multi-scale Topological Network for Single Image
Dehazing [31.543771270803056]
本稿では,入力画像自体の特徴抽出と利用に注意を払います。
本稿では,マルチスケールトポロジカルネットワーク (mstn) を提案する。
一方、我々は、異なるスケールで機能の選択と融合を達成するために、マルチスケール機能融合モジュール(MFFM)と適応機能選択モジュール(AFSM)を設計します。
論文 参考訳(メタデータ) (2021-02-24T08:53:14Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。