論文の概要: Feature Decoupling-Recycling Network for Fast Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2308.03529v2
- Date: Tue, 8 Aug 2023 05:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 15:44:29.293882
- Title: Feature Decoupling-Recycling Network for Fast Interactive Segmentation
- Title(参考訳): 高速インタラクティブセグメンテーションのための特徴デカップリング・リサイクリングネットワーク
- Authors: Huimin Zeng, Weinong Wang, Xin Tao, Zhiwei Xiong, Yu-Wing Tai, Wenjie
Pei
- Abstract要約: 近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
- 参考スコア(独自算出の注目度): 79.22497777645806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent interactive segmentation methods iteratively take source image, user
guidance and previously predicted mask as the input without considering the
invariant nature of the source image. As a result, extracting features from the
source image is repeated in each interaction, resulting in substantial
computational redundancy. In this work, we propose the Feature
Decoupling-Recycling Network (FDRN), which decouples the modeling components
based on their intrinsic discrepancies and then recycles components for each
user interaction. Thus, the efficiency of the whole interactive process can be
significantly improved. To be specific, we apply the Decoupling-Recycling
strategy from three perspectives to address three types of discrepancies,
respectively. First, our model decouples the learning of source image semantics
from the encoding of user guidance to process two types of input domains
separately. Second, FDRN decouples high-level and low-level features from
stratified semantic representations to enhance feature learning. Third, during
the encoding of user guidance, current user guidance is decoupled from
historical guidance to highlight the effect of current user guidance. We
conduct extensive experiments on 6 datasets from different domains and
modalities, which demonstrate the following merits of our model: 1) superior
efficiency than other methods, particularly advantageous in challenging
scenarios requiring long-term interactions (up to 4.25x faster), while
achieving favorable segmentation performance; 2) strong applicability to
various methods serving as a universal enhancement technique; 3) well
cross-task generalizability, e.g., to medical image segmentation, and
robustness against misleading user guidance.
- Abstract(参考訳): 近年のインタラクティブセグメンテーション手法は, 画像の不変性を考慮せずに, 画像, ユーザガイダンス, 従来予測されていたマスクを入力とする。
その結果、各インタラクションにおいて、ソース画像から特徴抽出が繰り返され、実質的な計算冗長性が生じる。
本稿では,本研究で提案するfdrn(feature decoupling-recycling network)を提案する。
これにより、インタラクティブプロセス全体の効率を大幅に改善することができる。
具体的には,3つの相違点に対処するために,3つの視点からDecoupling-Recycling戦略を適用する。
まず,2種類の入力領域を別々に処理するために,ユーザガイダンスの符号化からソース画像意味学の学習を分離する。
第二に、FDRNは階層化された意味表現から高レベルの特徴と低レベルの特徴を分離し、特徴学習を強化する。
第3に、ユーザガイダンスのエンコーディング中に、現在のユーザガイダンスが履歴ガイダンスから切り離され、現在のユーザガイダンスの効果が強調される。
異なるドメインとモダリティから得られた6つのデータセットに関する広範な実験を行い、以下のモデルの有効性を実証する。
1) 他の方法よりも優れた効率性,特に長期的インタラクション(最大4.25倍の速度)を必要とする困難なシナリオにおいて有利であり,かつ,良好なセグメンテーション性能を達成する。
2) ユニバーサルエンハンスメント技術としての様々な方法への強い適用性
3) 医用画像のセグメンテーションや誤解を招くユーザガイダンスに対するロバスト性など,優れたクロスタスク汎用性。
関連論文リスト
- Reversible Decoupling Network for Single Image Reflection Removal [15.763420129991255]
高レベルのセマンティックなヒントは、層間伝播中に圧縮または破棄される傾向がある。
我々はReversible Decoupling Network (RDNet)と呼ばれる新しいアーキテクチャを提案する。
RDNetは可逆エンコーダを使用して、転送時と反射時の特徴を柔軟に分離しながら、貴重な情報を確保する。
論文 参考訳(メタデータ) (2024-10-10T15:58:27Z) - EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration [63.112790050749695]
本稿では,行動情報と意味情報の両方をシームレスに統合する新しい生成推薦フレームワークであるEAGERを紹介する。
EAGERの有効性を4つの公開ベンチマークで検証し,既存手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-20T06:21:56Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [29.054945307605816]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
本手法は精度と効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Improving One-class Recommendation with Multi-tasking on Various
Preference Intensities [1.8416014644193064]
一流のレコメンデーションでは、ユーザの暗黙のフィードバックに基づいてレコメンデーションを行う必要があります。
暗黙的なフィードバックから各信号の様々な好み強度を考慮に入れたマルチタスクフレームワークを提案する。
提案手法は,3つの大規模実世界のベンチマークデータセットに対して,最先端の手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-01-18T18:59:55Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Knowledge-Enhanced Hierarchical Graph Transformer Network for
Multi-Behavior Recommendation [56.12499090935242]
本研究では,ユーザとレコメンデータシステムにおける項目間の多種類の対話パターンを探索する知識強化階層型グラフトランスフォーマネットワーク(KHGT)を提案する。
KHGTはグラフ構造化ニューラルネットワーク上に構築され、タイプ固有の振る舞い特性をキャプチャする。
KHGTは、様々な評価設定において、最先端のレコメンデーション手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T09:44:00Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。