論文の概要: Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy
Dichotomous Image Segmentation
- arxiv url: http://arxiv.org/abs/2307.14052v1
- Date: Wed, 26 Jul 2023 09:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 12:58:29.686836
- Title: Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy
Dichotomous Image Segmentation
- Title(参考訳): Unite-Divide-Unite: 高精度二関節画像分割のためのジョイントブースティングトランクと構造
- Authors: Jialun Pei, Zhangjun Zhou, Yueming Jin, He Tang, Pheng-Ann Heng
- Abstract要約: Dichotomous Image rendering (DIS) は、自然の風景からカテゴリーに依存しない前景の物体をピンポイントすることを目的としている。
本稿では, トランクと構造同定の有効性を高めるために, 相補的特徴を再構成し, 分割的に配置する, UDUN (Unite-Divide-Unite Network) を提案する。
1024*1024入力を用いて、ResNet-18で65.3fpsのリアルタイム推論を可能にする。
- 参考スコア(独自算出の注目度): 48.995367430746086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-accuracy Dichotomous Image Segmentation (DIS) aims to pinpoint
category-agnostic foreground objects from natural scenes. The main challenge
for DIS involves identifying the highly accurate dominant area while rendering
detailed object structure. However, directly using a general encoder-decoder
architecture may result in an oversupply of high-level features and neglect the
shallow spatial information necessary for partitioning meticulous structures.
To fill this gap, we introduce a novel Unite-Divide-Unite Network (UDUN} that
restructures and bipartitely arranges complementary features to simultaneously
boost the effectiveness of trunk and structure identification. The proposed
UDUN proceeds from several strengths. First, a dual-size input feeds into the
shared backbone to produce more holistic and detailed features while keeping
the model lightweight. Second, a simple Divide-and-Conquer Module (DCM) is
proposed to decouple multiscale low- and high-level features into our structure
decoder and trunk decoder to obtain structure and trunk information
respectively. Moreover, we design a Trunk-Structure Aggregation module (TSA) in
our union decoder that performs cascade integration for uniform high-accuracy
segmentation. As a result, UDUN performs favorably against state-of-the-art
competitors in all six evaluation metrics on overall DIS-TE, i.e., achieving
0.772 weighted F-measure and 977 HCE. Using 1024*1024 input, our model enables
real-time inference at 65.3 fps with ResNet-18.
- Abstract(参考訳): high-accuracy dichotomous image segmentation (dis)は、カテゴリーに依存しないフォアグラウンドオブジェクトを自然シーンから特定することを目的としている。
DISの主な課題は、詳細なオブジェクト構造を描画しながら、高度に正確な支配領域を特定することである。
しかし、一般的なエンコーダ-デコーダアーキテクチャを直接使用すると、高レベルの特徴が過剰に供給され、細部構造を分割するのに必要な浅い空間情報が無視される可能性がある。
このギャップを埋めるために、トランクと構造同定の有効性を同時に向上するために、補間的特徴を再構成し、分割的に配置する新しいユニット・ディヴィッド・ユニテ・ネットワーク(UDUN)を導入する。
提案されたUDUNはいくつかの強みから進歩している。
まず、デュアルサイズの入力が共有バックボーンにフィードされ、モデルを軽量に保ちながら、より全体的で詳細な機能を生成する。
第2に、構造デコーダとトランクデコーダにマルチスケールの低レベル特徴と高レベル特徴を分離して、構造情報とトランク情報を取得するための単純なDCMを提案する。
さらに,一様高精度セグメンテーションのためのカスケード統合を行う結合デコーダにおいて,トランク構造アグリゲーションモジュール(TSA)を設計する。
その結果、udunは全6つの評価指標、すなわち0.772の重み付きf-measureと977 hceにおいて最先端の競合相手に対して有利に作用する。
1024*1024入力を用いて、ResNet-18で65.3fpsのリアルタイム推論を可能にする。
関連論文リスト
- High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - FIF-UNet: An Efficient UNet Using Feature Interaction and Fusion for Medical Image Segmentation [5.510679875888542]
FIF-UNetと呼ばれる新しいU字型モデルが3つのプラグ・アンド・プレイモジュールを含む上記の問題に対処するために提案されている。
SynapseとACDCデータセットの実験は、提案されたFIF-UNetが既存の最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-09-09T04:34:47Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation [11.986549780782724]
医用画像の正確な分割作業のために,BRAU-Net++ というハイブリッドで効果的な CNN-Transformer ネットワークを提案する。
具体的には、BRAU-Net++は、U字型エンコーダデコーダ構造を設計するために、コアビルディングブロックとしてバイレベルルーティングアテンションを使用する。
提案手法は,そのベースラインであるBRAU-Netを含む,最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-01-01T10:49:09Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic
Segmentation [23.25851281719734]
リアルタイムセマンティックセグメンテーションのためのFBSNet(Fast Bilateral Symmetrical Network)を提案する。
FBSNetには対称デコーダ構造があり、2つの分岐、意味情報分岐、空間詳細分岐がある。
CityscapesとCamVidの実験結果から、提案したFBSNetは精度と効率のバランスが良いことを示している。
論文 参考訳(メタデータ) (2021-09-02T04:16:39Z) - Combining Progressive Rethinking and Collaborative Learning: A Deep
Framework for In-Loop Filtering [67.22506488158707]
再構築されたフレーム内およびフレーム間の品質を改善するために,プログレッシブな再考と協調学習機構を備えたディープネットワークを設計する。
フレーム内情報を用いたPRNは,全イントラ(AI)構成下のHEVCベースラインと比較して平均で9.0%のBDレート低減を実現している。
論文 参考訳(メタデータ) (2020-01-16T05:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。