論文の概要: Ultra-High Resolution Segmentation via Boundary-Enhanced Patch-Merging Transformer
- arxiv url: http://arxiv.org/abs/2412.10181v2
- Date: Sat, 21 Dec 2024 07:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:20:50.053733
- Title: Ultra-High Resolution Segmentation via Boundary-Enhanced Patch-Merging Transformer
- Title(参考訳): 境界強化パッチマージ変圧器による超高分解能セグメンテーション
- Authors: Haopeng Sun, Yingwei Zhang, Lumin Xu, Sheng Jin, Yiqiang Chen,
- Abstract要約: 境界強化パッチマージ変圧器(BPT)と呼ばれる新しいUHRセグメンテーション法を提案する。
BPT は,(1) トークンを情報領域に動的に割り当てる Patch-Merging Transformer (PMT) と,(2) 境界情報を利用する境界拡張モジュール (BEM) の2つのキーコンポーネントから構成される。
我々のBPTは、余分な計算オーバーヘッドを伴わずに、従来の最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 14.252237735930953
- License:
- Abstract: Segmentation of ultra-high resolution (UHR) images is a critical task with numerous applications, yet it poses significant challenges due to high spatial resolution and rich fine details. Recent approaches adopt a dual-branch architecture, where a global branch learns long-range contextual information and a local branch captures fine details. However, they struggle to handle the conflict between global and local information while adding significant extra computational cost. Inspired by the human visual system's ability to rapidly orient attention to important areas with fine details and filter out irrelevant information, we propose a novel UHR segmentation method called Boundary-enhanced Patch-merging Transformer (BPT). BPT consists of two key components: (1) Patch-Merging Transformer (PMT) for dynamically allocating tokens to informative regions to acquire global and local representations, and (2) Boundary-Enhanced Module (BEM) that leverages boundary information to enrich fine details. Extensive experiments on multiple UHR image segmentation benchmarks demonstrate that our BPT outperforms previous state-of-the-art methods without introducing extra computational overhead. Codes will be released to facilitate research.
- Abstract(参考訳): 超高分解能画像(UHR)の分割は多くの応用において重要な課題であるが、高空間分解能と高精細な細部のために大きな課題が生じる。
最近のアプローチでは、グローバルブランチが長距離コンテキスト情報を学習し、ローカルブランチが詳細をキャプチャするデュアルブランチアーキテクチャを採用している。
しかし、グローバルな情報とローカルな情報の衝突に対処し、計算コストを大幅に増やすのに苦労している。
人間の視覚システムが重要な領域に細部まで素早く注意を向け、無関係な情報をフィルタリングする能力に触発され、境界強化パッチマージ変換(BPT)と呼ばれる新しいUHRセグメンテーション手法を提案する。
BPTは,(1) トークンを動的にアロケートしてグローバルおよびローカルな表現を取得するためのパッチ・マージ・トランスフォーマー(PMT)と,(2) 境界情報を利用して詳細を豊かにする境界拡張モジュール(BEM)の2つのキーコンポーネントから構成される。
複数のUHR画像セグメンテーションベンチマークの大規模な実験により、BPTは余分な計算オーバーヘッドを伴わずに従来の最先端の手法より優れていることが示された。
研究を促進するためのコードもリリースされる予定だ。
関連論文リスト
- Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution [55.9977636042469]
ビット深度圧縮は、微妙な変化のある領域で均一な深度表現を生成し、詳細情報の回復を妨げる。
密集したランダムノイズは、シーンのグローバルな幾何学的構造を推定する精度を低下させる。
圧縮深度マップ超解像のための新しいフレームワークGDNetを提案する。
論文 参考訳(メタデータ) (2024-11-05T16:37:30Z) - Remote Sensing Image Segmentation Using Vision Mamba and Multi-Scale Multi-Frequency Feature Fusion [9.098711843118629]
本稿では、状態空間モデル(SSM)を導入し、視覚マンバ(CVMH-UNet)に基づく新しいハイブリッドセマンティックセマンティックネットワークを提案する。
本手法は、クロス2Dスキャン(CS2D)を用いて、複数の方向からグローバル情報をフルにキャプチャする、クロス走査型視覚状態空間ブロック(CVSSBlock)を設計する。
ローカル情報取得におけるビジョン・マンバ(VMamba)の制約を克服するために畳み込みニューラルネットワークのブランチを組み込むことにより、このアプローチはグローバル機能とローカル機能の両方の包括的な分析を促進する。
論文 参考訳(メタデータ) (2024-10-08T02:17:38Z) - MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic Segmentation [155.0797148367653]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインギャップを埋めるタスクである。
深度不連続性はしばしばセグメンテーション境界と一致するため、幾何学的情報、すなわち深度予測を活用することを提案する。
提案手法は, 様々な UDA 手法にプラグインし, 標準 UDA ベンチマークで連続的に結果を改善することができることを示す。
論文 参考訳(メタデータ) (2024-08-29T12:15:10Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Learning Accurate and Enriched Features for Stereo Image Super-Resolution [0.0]
ステレオ画像超解像(ステレオSR)は、代替的な視点から補完情報を組み込むことで、超解像の質を高めることを目的としている。
我々は,空間的詳細を正確に保存し,豊富なコンテキスト情報を組み込むため,MSSFNet(Mixed-scale selective fusion Network)を提案する。
MSSFNetは、定量評価と定性評価の両方において最先端のアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-23T03:34:17Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - DRBANET: A Lightweight Dual-Resolution Network for Semantic Segmentation
with Boundary Auxiliary [15.729067807920236]
本稿では,境界情報を用いてセマンティックセグメンテーション結果を洗練することを目的とした,DRBANetと呼ばれる軽量なデュアルレゾリューションネットワークを提案する。
DRBANetは、高分解能分岐(HRB)と低分解能分岐(LRB)を含むデュアル並列アーキテクチャを採用している。
CityscapesとCamVidデータセットの実験により,セグメント化精度と実行効率との有望なトレードオフを実現することができた。
論文 参考訳(メタデータ) (2021-10-31T14:20:02Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。