論文の概要: CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for
Interactive Image Segmentation
- arxiv url: http://arxiv.org/abs/2303.05620v2
- Date: Mon, 4 Mar 2024 23:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 04:00:48.737257
- Title: CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for
Interactive Image Segmentation
- Title(参考訳): CFR-ICL:インタラクティブ画像セグメンテーションのための反復クリックロスを用いたカスケードフォワードリファインメント
- Authors: Shoukun Sun, Min Xian, Fei Xu, Luca Capriotti, Tiankai Yao
- Abstract要約: 本稿では,3つの新しいコンポーネントを含むクリックベースおよびマスク誘導型インタラクティブ画像分割フレームワークを提案する。
提案フレームワークは,セグメント化結果を粗い方法で生成する統合推論フレームワークを提供する。
我々のモデルは33.2%減少し、15.5%は従来の最先端のアプローチで0.95のIoUを超えるのに必要なクリック数である。
- 参考スコア(独自算出の注目度): 2.482735440750151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The click-based interactive segmentation aims to extract the object of
interest from an image with the guidance of user clicks. Recent work has
achieved great overall performance by employing feedback from the output.
However, in most state-of-the-art approaches, 1) the inference stage involves
inflexible heuristic rules and requires a separate refinement model, and 2) the
number of user clicks and model performance cannot be balanced. To address the
challenges, we propose a click-based and mask-guided interactive image
segmentation framework containing three novel components: Cascade-Forward
Refinement (CFR), Iterative Click Loss (ICL), and SUEM image augmentation. The
CFR offers a unified inference framework to generate segmentation results in a
coarse-to-fine manner. The proposed ICL allows model training to improve
segmentation and reduce user interactions simultaneously. The proposed SUEM
augmentation is a comprehensive way to create large and diverse training sets
for interactive image segmentation. Extensive experiments demonstrate the
state-of-the-art performance of the proposed approach on five public datasets.
Remarkably, our model reduces by 33.2\%, and 15.5\% the number of clicks
required to surpass an IoU of 0.95 in the previous state-of-the-art approach on
the Berkeley and DAVIS sets, respectively.
- Abstract(参考訳): クリックベースのインタラクティブセグメンテーションは、ユーザクリックのガイダンスで画像から興味の対象を抽出することを目的としている。
最近の作業は、アウトプットからのフィードバックを利用することで、全体的なパフォーマンスを実現しています。
しかし、ほとんどの最先端のアプローチでは。
1) 推論段階は, 柔軟性のないヒューリスティックな規則を伴い, 個別の細分化モデルが必要となる。
2)ユーザのクリック数とモデルパフォーマンスはバランスが取れない。
そこで,本研究では,cfr(カスケードフォワードリファインメント),icl(反復クリック損失),sesem画像拡張の3つの新しいコンポーネントを含む,クリックベースおよびマスクガイドによるインタラクティブ画像セグメンテーションフレームワークを提案する。
CFRは、セグメンテーション結果を粗い方法で生成する統合推論フレームワークを提供する。
提案したICLでは,モデルのトレーニングによりセグメンテーションを改善し,ユーザインタラクションを同時に低減することができる。
提案手法は,インタラクティブな画像セグメンテーションのための大規模かつ多様なトレーニングセットを作成するための包括的手法である。
大規模な実験は、5つの公開データセットに対する提案手法の最先端性能を示す。
注目すべきことに、我々のモデルは、バークレーとDAVISの以前の最先端アプローチにおいて、それぞれ0.95のIoUを超えるために必要なクリック数(クリック数)を33.2\%、および15.5\%削減する。
関連論文リスト
- Freestyle Sketch-in-the-Loop Image Segmentation [116.1810651297801]
そこで我々は,視覚概念を部分的に,完全に,あるいはグループ化することで,視覚概念のセグメンテーションを可能にする,スケッチ・イン・ザ・ループ(sketch-in-the-loop)イメージセグメンテーションフレームワークを提案する。
このフレームワークは、スケッチベースの画像検索モデルと大規模事前学習モデルとの相乗効果を生かしている。
我々の目的による拡張戦略は、スケッチ誘導マスク生成の汎用性を高め、複数のレベルでセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。
インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。
2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T10:15:53Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and
Inter-Image Attention Design [40.97593636235116]
既存のバックボーン認識モデルに新たなICIIAモジュールを提案する。
特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAはクライアントの歴史的未ラベル画像から関連画像を取得するために、マルチヘッド自己アテンションを導入する。
ICIIAを5つの代表的なデータセットに対して9つのバックボーンモデルを用いて3つの異なる認識タスクを用いて評価した。
論文 参考訳(メタデータ) (2022-11-11T15:33:21Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。