論文の概要: Leveraging Adaptive Implicit Representation Mapping for Ultra High-Resolution Image Segmentation
- arxiv url: http://arxiv.org/abs/2407.21256v1
- Date: Wed, 31 Jul 2024 00:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:04:58.132790
- Title: Leveraging Adaptive Implicit Representation Mapping for Ultra High-Resolution Image Segmentation
- Title(参考訳): 超高分解能画像分割のための適応型インシシト表現マッピングの活用
- Authors: Ziyu Zhao, Xiaoguang Li, Pingping Cai, Canyu Zhang, Song Wang,
- Abstract要約: 入射表現マッピング(IRM)は、画像特徴を任意の連続分解能に変換することができ、超高分解能画像分割精細化のための強力な能力を示す。
IRMをベースとした現在の超高解像度画像分割法は、画像の特徴を抽出するためにCNNベースのエンコーダに依存することが多い。
超高解像度イメージ関数に対して,新たに提案したImplicit Representation Mapping (AIRM) を利用した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 19.87987918759425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit representation mapping (IRM) can translate image features to any continuous resolution, showcasing its potent capability for ultra-high-resolution image segmentation refinement. Current IRM-based methods for refining ultra-high-resolution image segmentation often rely on CNN-based encoders to extract image features and apply a Shared Implicit Representation Mapping Function (SIRMF) to convert pixel-wise features into segmented results. Hence, these methods exhibit two crucial limitations. Firstly, the CNN-based encoder may not effectively capture long-distance information, resulting in a lack of global semantic information in the pixel-wise features. Secondly, SIRMF is shared across all samples, which limits its ability to generalize and handle diverse inputs. To address these limitations, we propose a novel approach that leverages the newly proposed Adaptive Implicit Representation Mapping (AIRM) for ultra-high-resolution Image Segmentation. Specifically, the proposed method comprises two components: (1) the Affinity Empowered Encoder (AEE), a robust feature extractor that leverages the benefits of the transformer architecture and semantic affinity to model long-distance features effectively, and (2) the Adaptive Implicit Representation Mapping Function (AIRMF), which adaptively translates pixel-wise features without neglecting the global semantic information, allowing for flexible and precise feature translation. We evaluated our method on the commonly used ultra-high-resolution segmentation refinement datasets, i.e., BIG and PASCAL VOC 2012. The extensive experiments demonstrate that our method outperforms competitors by a large margin. The code is provided in supplementary material.
- Abstract(参考訳): 入射表現マッピング(IRM)は、画像特徴を任意の連続分解能に変換することができ、超高分解能画像分割精細化のための強力な能力を示す。
超高解像度画像セグメンテーションを精細化する現在のIRM法は、画像特徴の抽出にCNNベースのエンコーダを頼り、画像特徴のセグメント化にSIRMF(Shared Implicit Representation Mapping Function)を適用していることが多い。
したがって、これらの方法には2つの重要な制限がある。
第一に、CNNベースのエンコーダは、長距離情報を効果的にキャプチャすることができず、ピクセルワイズ機能にグローバルな意味情報が欠落する可能性がある。
第2に、SIRMFはすべてのサンプル間で共有され、多様な入力を一般化し処理する能力を制限する。
これらの制約に対処するために,新たに提案された適応命令表現マッピング(AIRM)を超高解像度画像分割に活用する手法を提案する。
具体的には,(1)アフィニティ・エンパワー・エンコーダ(AEE, Affinity Empowered Encoder, AEE)と,(2)アダプティブ・インプリシット・表現変換関数(AIRMF, Adaptive Implicit Representation Mapping Function, AIRMF)の2つのコンポーネントから構成される。
提案手法は,BIGとPASCAL VOC 2012という超高分解能セグメンテーション精細化データセットを用いて評価した。
大規模な実験により,本手法は競争相手をはるかに上回る結果を得た。
コードには補足材料が備わっている。
関連論文リスト
- MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Improved-Flow Warp Module for Remote Sensing Semantic Segmentation [9.505303195320023]
リモートセンシングセマンティックセグメンテーションのために,異なるスケールのセマンティックな特徴マップを調整するための改良フローワープモジュール (IFWM) を提案する。
IFWMは、画素のオフセットを学習可能な方法で計算し、マルチスケール機能の誤調整を軽減する。
提案手法を複数のリモートセンシングデータセットで検証し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-05-09T10:15:18Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。