Fugu-MT 論文翻訳(概要): DeepMerge: Deep-Learning-Based Region-Merging for Image Segmentation

論文の概要: DeepMerge: Deep-Learning-Based Region-Merging for Image Segmentation

arxiv url: http://arxiv.org/abs/2305.19787v2
Date: Fri, 5 Jan 2024 10:29:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 18:27:26.988897
Title: DeepMerge: Deep-Learning-Based Region-Merging for Image Segmentation
Title（参考訳）: DeepMerge: 画像セグメンテーションのためのディープラーニングベースの領域マージ
Authors: Xianwei Lv and Claudio Persello and Wangbin Li and Xiao Huang and Dongping Ming and Alfred Stein
Abstract要約: 本稿では,DeepMergeと呼ばれる深層学習に基づく領域マージ手法を提案する。これは、ディープラーニングを用いて類似性を学習し、RAGに隣接する類似のスーパーピクセルをマージする最初の方法である。 DeepMergeは最も高いF値(0.9550)と最も低い総誤差TE(0.0895)を達成し、異なるサイズのオブジェクトを正しく分割し、競合する全てのセグメンテーション法より優れている。
参考スコア（独自算出の注目度）: 7.063322114865965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image segmentation aims to partition an image according to the objects in the scene and is a fundamental step in analysing very high spatial-resolution (VHR) remote sensing imagery. Current methods struggle to effectively consider land objects with diverse shapes and sizes. Additionally, the determination of segmentation scale parameters frequently adheres to a static and empirical doctrine, posing limitations on the segmentation of large-scale remote sensing images and yielding algorithms with limited interpretability. To address the above challenges, we propose a deep-learning-based region merging method dubbed DeepMerge to handle the segmentation of complete objects in large VHR images by integrating deep learning and region adjacency graph (RAG). This is the first method to use deep learning to learn the similarity and merge similar adjacent super-pixels in RAG. We propose a modified binary tree sampling method to generate shift-scale data, serving as inputs for transformer-based deep learning networks, a shift-scale attention with 3-Dimension relative position embedding to learn features across scales, and an embedding to fuse learned features with hand-crafted features. DeepMerge can achieve high segmentation accuracy in a supervised manner from large-scale remotely sensed images and provides an interpretable optimal scale parameter, which is validated using a remote sensing image of 0.55 m resolution covering an area of 5,660 km^2. The experimental results show that DeepMerge achieves the highest F value (0.9550) and the lowest total error TE (0.0895), correctly segmenting objects of different sizes and outperforming all competing segmentation methods.
Abstract（参考訳）: 画像セグメンテーションは、シーン内の物体に応じて画像を分割することを目的としており、非常に高空間分解能(VHR)リモートセンシング画像を分析するための基本的なステップである。現在の手法では、様々な形状や大きさの土地を効果的に検討することが困難である。さらに、セグメンテーションスケールパラメータの決定は静的かつ経験的な原理に固執し、大規模なリモートセンシング画像のセグメンテーションに制限を課し、解釈可能性に制限のあるアルゴリズムを生成する。以上の課題に対処するため,DeepMergeと呼ばれる深層学習に基づく領域マージ手法を提案し,深部学習と領域隣接グラフ(RAG)を統合することにより,大規模なVHR画像における完全オブジェクトのセグメンテーションを処理する。これは、ディープラーニングを用いて類似性を学習し、RAGに隣接する類似のスーパーピクセルをマージする最初の方法である。変換器をベースとしたディープラーニングネットワークの入力として機能し,3次元相対的な位置を埋め込んだシフトスケールアテンション,手作りの特徴を持つ学習特徴を融合するための埋め込みなど,シフトスケールデータを生成するための修正されたバイナリツリーサンプリング手法を提案する。 DeepMergeは、大規模なリモートセンシング画像から教師付き方法で高いセグメンテーション精度を達成でき、5,660 km^2の領域をカバーする0.55 mのリモートセンシング画像を用いて、解釈可能な最適スケールパラメータを提供する。実験の結果,DeepMergeは最大F値(0.9550)と最小総誤差TE(0.0895)を達成し,異なる大きさのオブジェクトを正しく分割し,競合する全セグメント法より優れていることがわかった。

関連論文リスト

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文参考訳（メタデータ） (2025-04-15T14:30:26Z)
Remote Sensing Image Segmentation Using Vision Mamba and Multi-Scale Multi-Frequency Feature Fusion [9.098711843118629]
本稿では、状態空間モデル(SSM)を導入し、視覚マンバ(CVMH-UNet)に基づく新しいハイブリッドセマンティックセマンティックネットワークを提案する。本手法は、クロス2Dスキャン(CS2D)を用いて、複数の方向からグローバル情報をフルにキャプチャする、クロス走査型視覚状態空間ブロック(CVSSBlock)を設計する。ローカル情報取得におけるビジョン・マンバ(VMamba)の制約を克服するために畳み込みニューラルネットワークのブランチを組み込むことにより、このアプローチはグローバル機能とローカル機能の両方の包括的な分析を促進する。
論文参考訳（メタデータ） (2024-10-08T02:17:38Z)
Depth-guided Texture Diffusion for Image Semantic Segmentation [47.46257473475867]
本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
論文参考訳（メタデータ） (2024-08-17T04:55:03Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation [10.919956120261539]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。 HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文参考訳（メタデータ） (2023-05-22T03:58:25Z)
De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文参考訳（メタデータ） (2023-03-29T18:07:25Z)
Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning [55.762840052788945]
本研究では,異なるスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。
論文参考訳（メタデータ） (2022-12-30T03:15:34Z)
Semantic Labeling of High Resolution Images Using EfficientUNets and Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文参考訳（メタデータ） (2022-06-20T12:03:54Z)
AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。 AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文参考訳（メタデータ） (2022-02-18T10:14:45Z)
High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-04T03:28:33Z)
A Multi-Level Approach to Waste Object Segmentation [10.20384144853726]
カラー画像とオプションの深度画像から廃棄物を局所化する問題に対処する。本手法は,複数の空間的粒度レベルでの強度と深度情報を統合する。我々は, この領域における今後の研究を促進するために, 新たなRGBD廃棄物分節MJU-Wasteを作成している。
論文参考訳（メタデータ） (2020-07-08T16:49:25Z)
DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文参考訳（メタデータ） (2020-03-15T08:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。