Fugu-MT 論文翻訳(概要): Low-Resolution Self-Attention for Semantic Segmentation

論文の概要: Low-Resolution Self-Attention for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2310.05026v1
Date: Sun, 8 Oct 2023 06:10:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 13:27:15.342662
Title: Low-Resolution Self-Attention for Semantic Segmentation
Title（参考訳）: セマンティクスセグメンテーションのための低分解能セルフアテンション
Authors: Yu-Huan Wu, Shi-Chen Zhang, Yun Liu, Le Zhang, Xin Zhan, Daquan Zhou, Jiashi Feng, Ming-Ming Cheng, Liangli Zhen
Abstract要約: 我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
参考スコア（独自算出の注目度）: 96.81482872022237
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Semantic segmentation tasks naturally require high-resolution information for pixel-wise segmentation and global context information for class prediction. While existing vision transformers demonstrate promising performance, they often utilize high resolution context modeling, resulting in a computational bottleneck. In this work, we challenge conventional wisdom and introduce the Low-Resolution Self-Attention (LRSA) mechanism to capture global context at a significantly reduced computational cost. Our approach involves computing self-attention in a fixed low-resolution space regardless of the input image's resolution, with additional 3x3 depth-wise convolutions to capture fine details in the high-resolution space. We demonstrate the effectiveness of our LRSA approach by building the LRFormer, a vision transformer with an encoder-decoder structure. Extensive experiments on the ADE20K, COCO-Stuff, and Cityscapes datasets demonstrate that LRFormer outperforms state-of-the-art models. The code will be made available at https://github.com/yuhuan-wu/LRFormer.
Abstract（参考訳）: セマンティックセグメンテーションタスクは、自然にピクセルワイドセグメンテーションのための高解像度情報とクラス予測のためのグローバルコンテキスト情報を必要とする。既存の視覚変換器は有望な性能を示すが、高解像度のコンテキストモデリングを利用することが多い。本研究では,従来の知恵に挑戦し,グローバルコンテキストを計算コストを大幅に削減するLRSA(Low-Resolution Self-Attention)機構を導入する。提案手法では,入力画像の解像度によらず,固定低解像度空間における自己アテンションを計算し,高分解能空間の細部をキャプチャする3×3深度畳み込みを付加する。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。 ADE20K、COCO-Stuff、Cityscapesのデータセットに関する大規模な実験は、LRFormerが最先端のモデルより優れていることを示している。コードはhttps://github.com/yuhuan-wu/LRFormer.comから入手できる。

関連論文リスト

HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文参考訳（メタデータ） (2025-07-17T08:09:31Z)
JAFAR: Jack up Any Feature at Any Resolution [53.343826346140624]
JAFARは、Foundation Visionsの軽量で柔軟な機能アップサンプラーである。これは、どんなファンデーションビジョンから任意の目標解像度まで、視覚的特徴の空間分解能を高める。非常に高い出力スケールに非常によく一般化する。
論文参考訳（メタデータ） (2025-06-10T20:53:12Z)
MaskAttn-UNet: A Mask Attention-Driven Framework for Universal Low-Resolution Image Segmentation [5.130440339897479]
MaskAttn-UNetはマスクアテンション機構を通じて従来のU-Netアーキテクチャを強化する新しいセグメンテーションフレームワークである。本モデルでは,無関係な背景を抑えながら重要な領域を選択的に強調し,乱れや複雑なシーンのセグメンテーション精度を向上させる。以上の結果から,MaskAttn-UNetは変圧器モデルよりも計算コストが大幅に低く,最先端の手法に匹敵する精度を達成できた。
論文参考訳（メタデータ） (2025-03-11T22:43:26Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
CubeFormer: A Simple yet Effective Baseline for Lightweight Image Super-Resolution [55.94314421887744]
軽量画像超解像(SR)法は、解像度を高め、軽量ニューラルネットワークを用いて画像の詳細を復元することを目的としている。分析の結果,これらの手法は,特徴表現や細部回復に悪影響を及ぼす制約付き特徴多様性によって妨げられていることが明らかとなった。そこで我々は,包括的情報集約を完了させることにより,特徴の豊かさを高めるために,CubeFormerというシンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2024-12-03T08:02:26Z)
HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation [12.606794661369959]
骨盤病変分割のための簡易高分解能デコーダネットワークHRDecoderを提案する。高精細な局所的特徴を捉えるための高精細な表現学習モジュールと、マルチスケールの予測を融合する高精細な融合モジュールを統合している。本手法は, 適正なメモリと計算オーバーヘッドを消費し, 推論速度の満足度を維持しながら, 足底部病変の全体的なセグメンテーション精度を効果的に向上させる。
論文参考訳（メタデータ） (2024-11-06T15:13:31Z)
UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文参考訳（メタデータ） (2024-10-27T06:28:43Z)
A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。 SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文参考訳（メタデータ） (2024-07-08T22:40:15Z)
MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned Image Compression [30.71965784982577]
我々はMEM++を導入し、潜在表現に固有の様々な相関関係をキャプチャする。 MEM++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。 MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。
論文参考訳（メタデータ） (2023-07-28T09:11:37Z)
Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文参考訳（メタデータ） (2023-03-11T10:44:44Z)
LSR: A Light-Weight Super-Resolution Method [36.14816868964436]
LSRは、補間された低分解能画像(ILR)と高分解能画像(HR)の間の残像を自己監督フレームワークを用いて予測する。 1)教師なし学習により対象画素の近傍にリッチで多様化した表現プールを生成すること,2)教師なし学習により下層の超解像タスクに最も関係のある表現プールからサブセットを選択すること,3)回帰によって対象画素の残差を予測すること,の3つのモジュールから構成される。
論文参考訳（メタデータ） (2023-02-27T09:02:35Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-27T05:03:56Z)
Deep Generative Adversarial Residual Convolutional Networks for Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文参考訳（メタデータ） (2020-05-03T00:12:38Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。