論文の概要: Bilateral Reference for High-Resolution Dichotomous Image Segmentation
- arxiv url: http://arxiv.org/abs/2401.03407v3
- Date: Mon, 20 May 2024 05:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 23:40:18.937892
- Title: Bilateral Reference for High-Resolution Dichotomous Image Segmentation
- Title(参考訳): 高分解能ジコトコス像の両側参照
- Authors: Peng Zheng, Dehong Gao, Deng-Ping Fan, Li Liu, Jorma Laaksonen, Wanli Ouyang, Nicu Sebe,
- Abstract要約: 高分解能ジコトコス像分割(DIS)のための新しい両側参照フレームワーク(BiRefNet)を導入する。
それは2つの重要な構成要素から構成される: 局在モジュール (LM) と再構成モジュール (RM) と、提案した両側参照 (BiRef) である。
RM内では、画像の階層的パッチがソース参照を提供し、勾配マップがターゲット参照として機能する、再構成プロセスにBiRefを利用する。
- 参考スコア(独自算出の注目度): 109.35828258964557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel bilateral reference framework (BiRefNet) for high-resolution dichotomous image segmentation (DIS). It comprises two essential components: the localization module (LM) and the reconstruction module (RM) with our proposed bilateral reference (BiRef). The LM aids in object localization using global semantic information. Within the RM, we utilize BiRef for the reconstruction process, where hierarchical patches of images provide the source reference and gradient maps serve as the target reference. These components collaborate to generate the final predicted maps. We also introduce auxiliary gradient supervision to enhance focus on regions with finer details. Furthermore, we outline practical training strategies tailored for DIS to improve map quality and training process. To validate the general applicability of our approach, we conduct extensive experiments on four tasks to evince that BiRefNet exhibits remarkable performance, outperforming task-specific cutting-edge methods across all benchmarks. Our codes are available at https://github.com/ZhengPeng7/BiRefNet.
- Abstract(参考訳): 高分解能ディコトコス像分割(DIS)のための新しい両側参照フレームワーク(BiRefNet)を導入する。
本研究は,2つの基本成分: 局所化モジュール (LM) と再構成モジュール (RM) を, 提案した両側参照 (BiRef) で構成する。
LMはグローバルな意味情報を用いたオブジェクトのローカライゼーションを支援する。
RM内では、画像の階層的パッチがソース参照を提供し、勾配マップがターゲット参照として機能する、再構成プロセスにBiRefを利用する。
これらのコンポーネントは、最終的な予測マップを生成するために協力する。
また,より詳細な領域に焦点を絞るために,補助的な勾配監督を導入する。
さらに、地図の質とトレーニングプロセスを改善するために、Disdisに適した実践的なトレーニング戦略を概説する。
提案手法の汎用性を検証するため,BiRefNetがすべてのベンチマークにおいて,タスク固有の最先端手法よりも優れた性能を示すことを示すため,4つのタスクについて広範な実験を行った。
私たちのコードはhttps://github.com/ZhengPeng7/BiRefNetで公開されています。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。
SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。
我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文 参考訳(メタデータ) (2023-11-27T15:46:19Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Referring Image Segmentation Using Text Supervision [44.27304699305985]
既存の参照画像(RIS)メソッドは、監視のために高価なピクセルレベルまたはボックスレベルのアノテーションを必要とするのが一般的である。
本稿では,対象の局所化問題を分類プロセスとして定式化するための,弱教師付きRISフレームワークを提案する。
我々のフレームワークは、既存の完全教師付きRISメソッドに対して有望な性能を達成しつつ、関連する領域から適応した最先端の弱教師付き手法より優れた性能を実現している。
論文 参考訳(メタデータ) (2023-08-28T13:40:47Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - CRCNet: Few-shot Segmentation with Cross-Reference and Region-Global
Conditional Networks [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
複数ショットセグメンテーションのためのクロスリファレンス・ローカル・グローバル・ネットワーク(CRCNet)を提案する。
我々のネットワークは、相互参照機構により、2つの画像に共起する物体をよりよく見つけることができる。
論文 参考訳(メタデータ) (2022-08-23T06:46:18Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - DRBANET: A Lightweight Dual-Resolution Network for Semantic Segmentation
with Boundary Auxiliary [15.729067807920236]
本稿では,境界情報を用いてセマンティックセグメンテーション結果を洗練することを目的とした,DRBANetと呼ばれる軽量なデュアルレゾリューションネットワークを提案する。
DRBANetは、高分解能分岐(HRB)と低分解能分岐(LRB)を含むデュアル並列アーキテクチャを採用している。
CityscapesとCamVidデータセットの実験により,セグメント化精度と実行効率との有望なトレードオフを実現することができた。
論文 参考訳(メタデータ) (2021-10-31T14:20:02Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。