Fugu-MT 論文翻訳(概要): Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation

論文の概要: Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation

arxiv url: http://arxiv.org/abs/2502.03813v1
Date: Thu, 06 Feb 2025 06:51:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.654357
Title: Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation
Title（参考訳）: マルチスケールセマンティックセグメンテーションのための注意機構を有する最適化Unet
Authors: Xuan Li, Quanchao Lu, Yankaiqi Li, Muqing Li, Yijiashun Qi,
Abstract要約: 本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
参考スコア（独自算出の注目度）: 8.443350618722564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic segmentation is one of the core tasks in the field of computer vision, and its goal is to accurately classify each pixel in an image. The traditional Unet model achieves efficient feature extraction and fusion through an encoder-decoder structure, but it still has certain limitations when dealing with complex backgrounds, long-distance dependencies, and multi-scale targets. To this end, this paper proposes an improved Unet model combined with an attention mechanism, introduces channel attention and spatial attention modules, enhances the model's ability to focus on important features, and optimizes skip connections through a multi-scale feature fusion strategy, thereby improving the combination of global semantic information and fine-grained features. The experiment is based on the Cityscapes dataset and compared with classic models such as FCN, SegNet, DeepLabv3+, and PSPNet. The improved model performs well in terms of mIoU and pixel accuracy (PA), reaching 76.5% and 95.3% respectively. The experimental results verify the superiority of this method in dealing with complex scenes and blurred target boundaries. In addition, this paper discusses the potential of the improved model in practical applications and future expansion directions, indicating that it has broad application value in fields such as autonomous driving, remote sensing image analysis, and medical image processing.
Abstract（参考訳）: セマンティックセグメンテーションはコンピュータビジョンの分野におけるコアタスクの1つであり、そのゴールは画像の各ピクセルを正確に分類することである。従来のUnetモデルは、エンコーダ・デコーダ構造を通じて効率的な特徴抽出と融合を実現するが、複雑なバックグラウンド、長距離依存、マルチスケールターゲットを扱う際には、一定の制限がある。そこで本稿では,注目機構と組み合わさった改良されたUnetモデルを提案し,チャネルアテンションと空間アテンションモジュールを導入し,重要な特徴に注目するモデルの能力を高め,マルチスケールの機能融合戦略による接続のスキップを最適化し,グローバルなセマンティック情報ときめ細かい特徴の組み合わせを改善する。この実験はCityscapesデータセットに基づいており、FCN、SegNet、DeepLabv3+、PSPNetといった古典的なモデルと比較されている。改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。実験により,複雑なシーンやぼやけたターゲット境界を扱う上で,この手法の優位性を検証した。さらに,自動運転,リモートセンシング画像解析,医用画像処理などの分野に応用価値が広いことを示す。

関連論文リスト

Shared Neural Space: Unified Precomputed Feature Encoding for Multi-Task and Cross Domain Vision [6.3796451378950385]
本稿では,エンコーダ・デコーダ・フレームワークが視覚および撮像タスク間で機能をプリコンプリートするユニバーサルニューラル・スペースを提案する。エンコーダは変換を意識し、一般化可能な表現を学び、複数の下流AIモジュールが同じ機能空間を共有できるようにします。我々は、NSにおいて、復調、復調、深度推定、セマンティックセグメンテーションなどの画像および視覚モジュールを効率的に実行できることを実証した。
論文参考訳（メタデータ） (2025-09-24T18:48:58Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [46.06496660333768]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
Threshold Attention Network for Semantic Segmentation of Remote Sensing Images [3.5449012582104795]
自己認識機構(SA)はセグメンテーションネットワークの設計に有効な手法である。セマンティックセグメンテーションのための新しいしきい値注意機構(TAM)を提案する。 TAMに基づいて,セマンティックセグメンテーションのためのしきい値注意ネットワーク(TANet)を提案する。
論文参考訳（メタデータ） (2025-01-14T10:09:55Z)
Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。 PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文参考訳（メタデータ） (2024-09-04T13:05:00Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文参考訳（メタデータ） (2024-04-20T15:23:15Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。提案手法は1dB以上で最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-05-09T17:36:58Z)
Multi-Attention-Network for Semantic Segmentation of Fine Resolution Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文参考訳（メタデータ） (2020-09-03T09:08:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。