論文の概要: Towards Complex Backgrounds: A Unified Difference-Aware Decoder for
Binary Segmentation
- arxiv url: http://arxiv.org/abs/2210.15156v1
- Date: Thu, 27 Oct 2022 03:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:20:12.926872
- Title: Towards Complex Backgrounds: A Unified Difference-Aware Decoder for
Binary Segmentation
- Title(参考訳): 複雑な背景:バイナリセグメンテーションのための統一差分認識デコーダ
- Authors: Jiepan Li, Wei He, and Hongyan Zhang
- Abstract要約: 本稿では、差分認識デコーダと呼ばれる新しい統合二重分岐デコーダパラダイムを提案する。
差分認識デコーダは、エンコーダによって出力されるマルチレベル特徴を用いて、人間の目を3段階に模倣する。
その結果、差認識デコーダは、他の最先端のバイナリセグメンテーション手法よりも高い精度で実現できることを示した。
- 参考スコア(独自算出の注目度): 4.6932442139663015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary segmentation is used to distinguish objects of interest from
background, and is an active area of convolutional encoder-decoder network
research. The current decoders are designed for specific objects based on the
common backbones as the encoders, but cannot deal with complex backgrounds.
Inspired by the way human eyes detect objects of interest, a new unified
dual-branch decoder paradigm named the difference-aware decoder is proposed in
this paper to explore the difference between the foreground and the background
and separate the objects of interest in optical images. The difference-aware
decoder imitates the human eye in three stages using the multi-level features
output by the encoder. In Stage A, the first branch decoder of the
difference-aware decoder is used to obtain a guide map. The highest-level
features are enhanced with a novel field expansion module and a dual residual
attention module, and are combined with the lowest-level features to obtain the
guide map. In Stage B, the other branch decoder adopts a middle feature fusion
module to make trade-offs between textural details and semantic information and
generate background-aware features. In Stage C, the proposed difference-aware
extractor, consisting of a difference guidance model and a difference
enhancement module, fuses the guide map from Stage A and the background-aware
features from Stage B, to enlarge the differences between the foreground and
the background and output a final detection result. The results demonstrate
that the difference-aware decoder can achieve a higher accuracy than the other
state-of-the-art binary segmentation methods for these tasks.
- Abstract(参考訳): バイナリセグメンテーションは、興味のあるオブジェクトと背景を区別するために使われ、畳み込みエンコーダ-デコーダネットワーク研究の活発な領域である。
現在のデコーダは、エンコーダとして共通のバックボーンに基づいた特定のオブジェクト向けに設計されているが、複雑なバックグラウンドを扱うことはできない。
本稿では,人間の目が興味のある物体を検出する方法に触発されて,差分認識デコーダと呼ばれる新しい統一型デュアルブランチデコーダパラダイムを提案し,前景と背景の違いを探索し,光学画像に対する関心対象を分離する。
差分認識デコーダは、エンコーダが出力する多レベル特徴を用いて、3段階の人間の目を模倣する。
ステージaでは、差分認識デコーダの第1分岐デコーダを使用してガイドマップを得る。
最高レベルの特徴は、新しいフィールド拡張モジュールと2つの残留アテンションモジュールで拡張され、最低レベルの特徴と組み合わせてガイドマップを得る。
ステージBでは、他のブランチデコーダが中間機能融合モジュールを採用して、テクスチャの詳細とセマンティック情報の間でトレードオフを行い、バックグラウンド認識機能を生成する。
cステージでは、差分誘導モデルと差分強調モジュールとからなる差分認識抽出器が、aステージからガイドマップとbステージから背景認識特徴とを融合させ、前景と背景との差を拡大し、最終検出結果を出力する。
その結果、差認識デコーダは、これらのタスクに対する他の最先端のバイナリセグメンテーション手法よりも高い精度で実現できることを示した。
関連論文リスト
- DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - T-UNet: Triplet UNet for Change Detection in High-Resolution Remote
Sensing Images [5.849243433046327]
現在、ほとんどの変更検出方法は、シームズネットワーク構造または初期の核融合構造に基づいている。
本稿では,3分岐エンコーダをベースとしたTriplet UNet(T-UNet)を提案する。
デコーダの段階では、詳細なテクスチャ情報を完全にマイニングし統合するためのチャネルアテンション機構(CAM)と空間アテンション機構(SAM)を導入する。
論文 参考訳(メタデータ) (2023-08-04T14:44:11Z) - Crosslink-Net: Double-branch Encoder Segmentation Network via Fusing
Vertical and Horizontal Convolutions [58.71117402626524]
医用画像分割のための新しいダブルブランチエンコーダアーキテクチャを提案する。
1)正方形畳み込みカーネルによる特徴の識別をさらに改善する必要があるため,非正方形および水平畳み込みカーネルの利用を提案する。
実験では,4つのデータセット上でのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-24T02:58:32Z) - Two-stream Encoder-Decoder Network for Localizing Image Forgeries [4.982505311411925]
本稿では,高レベル画像と低レベル画像の両方を利用する2ストリームエンコーダデコーダネットワークを提案する。
提案手法の性能評価のために,複数の標準法医学データセットの実験的検討を行った。
論文 参考訳(メタデータ) (2020-09-27T15:49:17Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。