Fugu-MT 論文翻訳(概要): Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images

論文の概要: Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images

arxiv url: http://arxiv.org/abs/2412.02197v1
Date: Tue, 03 Dec 2024 06:23:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.898531
Title: Cascaded Multi-Scale Attention for Enhanced Multi-Scale Feature Extraction and Interaction with Low-Resolution Images
Title（参考訳）: 低解像度画像との相互作用とマルチスケール特徴抽出のためのカスケード型マルチスケールアテンション
Authors: Xiangyong Lu, Masanori Suganuma, Takayuki Okatani,
Abstract要約: 本稿では,低解像度入力を効果的に処理するための新しいアテンション機構,CMSAを提案する。このアーキテクチャは、異なるスケールにわたる機能の効果的なハンドリングを可能にし、人間のポーズ推定のようなタスクを実行するモデルの能力を高める。実験の結果,提案手法はパラメータが少なく,既存の最先端手法よりも優れていることがわかった。
参考スコア（独自算出の注目度）: 20.140898354987353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In real-world applications of image recognition tasks, such as human pose estimation, cameras often capture objects, like human bodies, at low resolutions. This scenario poses a challenge in extracting and leveraging multi-scale features, which is often essential for precise inference. To address this challenge, we propose a new attention mechanism, named cascaded multi-scale attention (CMSA), tailored for use in CNN-ViT hybrid architectures, to handle low-resolution inputs effectively. The design of CMSA enables the extraction and seamless integration of features across various scales without necessitating the downsampling of the input image or feature maps. This is achieved through a novel combination of grouped multi-head self-attention mechanisms with window-based local attention and cascaded fusion of multi-scale features over different scales. This architecture allows for the effective handling of features across different scales, enhancing the model's ability to perform tasks such as human pose estimation, head pose estimation, and more with low-resolution images. Our experimental results show that the proposed method outperforms existing state-of-the-art methods in these areas with fewer parameters, showcasing its potential for broad application in real-world scenarios where capturing high-resolution images is not feasible. Code is available at https://github.com/xyongLu/CMSA.
Abstract（参考訳）: 人間のポーズ推定のような画像認識タスクの現実の応用では、カメラは低解像度で人体のような物体をキャプチャすることが多い。このシナリオは、しばしば正確な推論に不可欠であるマルチスケール機能の抽出と活用において、課題となる。この課題に対処するため,CNN-ViTハイブリッドアーキテクチャにおいて,低分解能入力を効果的に処理するために,CMSA (Casscaded Multi-scale attention) という新しいアテンション機構を提案する。 CMSAの設計により、入力画像や特徴マップのダウンサンプリングを必要とせずに、様々なスケールで機能の抽出とシームレスな統合が可能になる。これは、グループ化されたマルチヘッド自己注意機構とウィンドウベースのローカルアテンションと、異なるスケールでのマルチスケール特徴のカスケード融合を組み合わせることで実現される。このアーキテクチャにより、さまざまなスケールの機能を効果的に扱えるようになり、人間のポーズ推定や頭ポーズ推定といったタスクを低解像度の画像で実行できるようになる。実験の結果,提案手法はパラメータが少ない領域において既存の最先端手法よりも優れており,高解像度画像のキャプチャが実現不可能な実世界のシナリオにおいて,幅広い応用の可能性を示している。コードはhttps://github.com/xyongLu/CMSAで入手できる。

関連論文リスト

A Cascaded Information Interaction Network for Precise Image Segmentation [3.911594181651384]
本稿では,新たなGlobal Information Guidance Moduleを統合した,カスケード型畳み込みニューラルネットワークを提案する。このモジュールは、複数の層にまたがる高レベルのセマンティック機能で、低レベルのテクスチャの詳細を効果的に融合するように設計されている。このアーキテクチャの革新は、特に視覚的に散らかったり、ぼやけた環境において、セグメンテーションの精度を大幅に向上させる。
論文参考訳（メタデータ） (2026-01-02T04:33:03Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
MLEP: Multi-granularity Local Entropy Patterns for Universal AI-generated Image Detection [44.40575446607237]
AI生成画像(AIGI)を効果的に検出する手法が緊急に必要である。マルチグラニュラリティ局所エントロピーパターン (MLEP) を提案する。 MLEPは、画像のセマンティクスを著しく破壊し、潜在的なコンテンツバイアスを低減しながら、次元とスケールの画素関係を包括的にキャプチャする。
論文参考訳（メタデータ） (2025-04-18T14:50:23Z)
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-04-10T16:54:28Z)
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding [25.32283897448209]
DynamicVisはリモートセンシング画像のための動的視覚認識基盤モデルである。選択状態空間モデルに基づく新しい動的領域知覚バックボーンを統合する。 97msのレイテンシ(ViTの6%)と833MBのGPUメモリ(ViTの3%)を備えた処理(2048x2048)ピクセルのマルチレベルの特徴モデリングを実現している。
論文参考訳（メタデータ） (2025-03-20T17:59:54Z)
Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation [4.227991281224256]
本稿では,計算効率を犠牲にすることなく,MambaとTransformerの相補的な利点を十分に活用することを提案する。マンバの選択的走査機構は空間モデリングに焦点をあて、長距離空間依存のキャプチャを可能にする。トランスフォーマーの自己保持機構は、画像の空間次元と二次的な成長の重荷を回避し、チャネルモデリングに焦点をあてる。
論文参考訳（メタデータ） (2024-12-20T12:36:34Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。 MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。 MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文参考訳（メタデータ） (2024-05-28T07:24:56Z)
Multi-scale Unified Network for Image Classification [33.560003528712414]
CNNは、実世界のマルチスケール画像入力を扱う際に、性能と計算効率において顕著な課題に直面している。本稿では,マルチスケール,統一ネットワーク,スケール不変制約からなるMultiscale Unified Network(MUSN)を提案する。 MUSNは精度が44.53%向上し、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。
論文参考訳（メタデータ） (2024-03-27T06:40:26Z)
Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2024-03-15T15:47:54Z)
Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文参考訳（メタデータ） (2022-11-19T07:50:34Z)
MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。 MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文参考訳（メタデータ） (2022-11-06T14:58:21Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
MC-Blur: A Comprehensive Benchmark for Image Deblurring [127.6301230023318]
ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。我々は,MC-Blurと呼ばれる大規模マルチライク画像デブロアリングデータセットを新たに構築する。 MC-Blurデータセットに基づいて,異なるシナリオにおけるSOTA法の比較を行う。
論文参考訳（メタデータ） (2021-12-01T02:10:42Z)
DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文参考訳（メタデータ） (2021-05-01T14:32:13Z)
Efficient and Accurate Multi-scale Topological Network for Single Image Dehazing [31.543771270803056]
本稿では,入力画像自体の特徴抽出と利用に注意を払います。本稿では,マルチスケールトポロジカルネットワーク (mstn) を提案する。一方、我々は、異なるスケールで機能の選択と融合を達成するために、マルチスケール機能融合モジュール(MFFM)と適応機能選択モジュール(AFSM)を設計します。
論文参考訳（メタデータ） (2021-02-24T08:53:14Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)
Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。 HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文参考訳（メタデータ） (2020-03-07T10:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。