Fugu-MT 論文翻訳(概要): Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy Dichotomous Image Segmentation

論文の概要: Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy Dichotomous Image Segmentation

arxiv url: http://arxiv.org/abs/2307.14052v1
Date: Wed, 26 Jul 2023 09:04:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 12:58:29.686836
Title: Unite-Divide-Unite: Joint Boosting Trunk and Structure for High-accuracy Dichotomous Image Segmentation
Title（参考訳）: Unite-Divide-Unite: 高精度二関節画像分割のためのジョイントブースティングトランクと構造
Authors: Jialun Pei, Zhangjun Zhou, Yueming Jin, He Tang, Pheng-Ann Heng
Abstract要約: Dichotomous Image rendering (DIS) は、自然の風景からカテゴリーに依存しない前景の物体をピンポイントすることを目的としている。本稿では, トランクと構造同定の有効性を高めるために, 相補的特徴を再構成し, 分割的に配置する, UDUN (Unite-Divide-Unite Network) を提案する。 1024*1024入力を用いて、ResNet-18で65.3fpsのリアルタイム推論を可能にする。
参考スコア（独自算出の注目度）: 48.995367430746086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-accuracy Dichotomous Image Segmentation (DIS) aims to pinpoint category-agnostic foreground objects from natural scenes. The main challenge for DIS involves identifying the highly accurate dominant area while rendering detailed object structure. However, directly using a general encoder-decoder architecture may result in an oversupply of high-level features and neglect the shallow spatial information necessary for partitioning meticulous structures. To fill this gap, we introduce a novel Unite-Divide-Unite Network (UDUN} that restructures and bipartitely arranges complementary features to simultaneously boost the effectiveness of trunk and structure identification. The proposed UDUN proceeds from several strengths. First, a dual-size input feeds into the shared backbone to produce more holistic and detailed features while keeping the model lightweight. Second, a simple Divide-and-Conquer Module (DCM) is proposed to decouple multiscale low- and high-level features into our structure decoder and trunk decoder to obtain structure and trunk information respectively. Moreover, we design a Trunk-Structure Aggregation module (TSA) in our union decoder that performs cascade integration for uniform high-accuracy segmentation. As a result, UDUN performs favorably against state-of-the-art competitors in all six evaluation metrics on overall DIS-TE, i.e., achieving 0.772 weighted F-measure and 977 HCE. Using 1024*1024 input, our model enables real-time inference at 65.3 fps with ResNet-18.
Abstract（参考訳）: high-accuracy dichotomous image segmentation (dis)は、カテゴリーに依存しないフォアグラウンドオブジェクトを自然シーンから特定することを目的としている。 DISの主な課題は、詳細なオブジェクト構造を描画しながら、高度に正確な支配領域を特定することである。しかし、一般的なエンコーダ-デコーダアーキテクチャを直接使用すると、高レベルの特徴が過剰に供給され、細部構造を分割するのに必要な浅い空間情報が無視される可能性がある。このギャップを埋めるために、トランクと構造同定の有効性を同時に向上するために、補間的特徴を再構成し、分割的に配置する新しいユニット・ディヴィッド・ユニテ・ネットワーク(UDUN)を導入する。提案されたUDUNはいくつかの強みから進歩している。まず、デュアルサイズの入力が共有バックボーンにフィードされ、モデルを軽量に保ちながら、より全体的で詳細な機能を生成する。第2に、構造デコーダとトランクデコーダにマルチスケールの低レベル特徴と高レベル特徴を分離して、構造情報とトランク情報を取得するための単純なDCMを提案する。さらに,一様高精度セグメンテーションのためのカスケード統合を行う結合デコーダにおいて,トランク構造アグリゲーションモジュール(TSA)を設計する。その結果、udunは全6つの評価指標、すなわち0.772の重み付きf-measureと977 hceにおいて最先端の競合相手に対して有利に作用する。 1024*1024入力を用いて、ResNet-18で65.3fpsのリアルタイム推論を可能にする。

関連論文リスト

Residual Prior-driven Frequency-aware Network for Image Fusion [6.90874640835234]
画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
論文参考訳（メタデータ） (2025-07-09T10:48:00Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark [8.707197692292292]
これまでで最も大きく多様なRRSISデータセットであるNWPU-Referを導入し、49,745個の注釈付きターゲットを持つ30か国にまたがる15,003個の高解像度画像(1024-2048px)を含む。また、RRSISのユニークな要求に対応する新しいフレームワークであるMulti-scale Referring Network (MRSNet)を提案する。
論文参考訳（メタデータ） (2025-06-04T05:26:51Z)
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文参考訳（メタデータ） (2025-05-07T19:37:20Z)
UCS: A Universal Model for Curvilinear Structure Segmentation [11.10994320036562]
カービリナー構造セグメンテーション(CSS)は、医療画像、景観分析、産業表面検査、植物分析など、様々な領域において不可欠である。 SAMをCSSタスクに適応させ,その一般化を向上するUniversal Curvilinear Structure (textitUCS) モデルを提案する。 textitUCSは、医学、工学、自然、植物画像にまたがる最先端の一般化とオープンセットのセグメンテーション性能を示す。
論文参考訳（メタデータ） (2025-04-05T03:05:04Z)
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。 SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文参考訳（メタデータ） (2024-10-14T02:49:23Z)
FIF-UNet: An Efficient UNet Using Feature Interaction and Fusion for Medical Image Segmentation [5.510679875888542]
FIF-UNetと呼ばれる新しいU字型モデルが3つのプラグ・アンド・プレイモジュールを含む上記の問題に対処するために提案されている。 SynapseとACDCデータセットの実験は、提案されたFIF-UNetが既存の最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2024-09-09T04:34:47Z)
P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-05-30T19:40:08Z)
CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文参考訳（メタデータ） (2024-04-23T18:46:07Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation [11.986549780782724]
医用画像の正確な分割作業のために,BRAU-Net++ というハイブリッドで効果的な CNN-Transformer ネットワークを提案する。具体的には、BRAU-Net++は、U字型エンコーダデコーダ構造を設計するために、コアビルディングブロックとしてバイレベルルーティングアテンションを使用する。提案手法は,そのベースラインであるBRAU-Netを含む,最先端の手法を超越した手法である。
論文参考訳（メタデータ） (2024-01-01T10:49:09Z)
Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [47.7036344302777]
現在のオブジェクトビデオ参照メソッドは、抽出-then-matchingのパイプラインに従う。本稿では,共同機能モデリング,対応,圧縮メモリのための統合VOSフレームワークであるJointFormerを提案する。
論文参考訳（メタデータ） (2023-08-25T17:30:08Z)
SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文参考訳（メタデータ） (2022-08-31T03:00:07Z)
Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文参考訳（メタデータ） (2022-02-21T15:30:14Z)
FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic Segmentation [23.25851281719734]
リアルタイムセマンティックセグメンテーションのためのFBSNet(Fast Bilateral Symmetrical Network)を提案する。 FBSNetには対称デコーダ構造があり、2つの分岐、意味情報分岐、空間詳細分岐がある。 CityscapesとCamVidの実験結果から、提案したFBSNetは精度と効率のバランスが良いことを示している。
論文参考訳（メタデータ） (2021-09-02T04:16:39Z)
Combining Progressive Rethinking and Collaborative Learning: A Deep Framework for In-Loop Filtering [67.22506488158707]
再構築されたフレーム内およびフレーム間の品質を改善するために,プログレッシブな再考と協調学習機構を備えたディープネットワークを設計する。フレーム内情報を用いたPRNは,全イントラ(AI)構成下のHEVCベースラインと比較して平均で9.0%のBDレート低減を実現している。
論文参考訳（メタデータ） (2020-01-16T05:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。