論文の概要: CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for
Interactive Image Segmentation
- arxiv url: http://arxiv.org/abs/2303.05620v1
- Date: Thu, 9 Mar 2023 23:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 16:46:32.685839
- Title: CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for
Interactive Image Segmentation
- Title(参考訳): CFR-ICL:インタラクティブ画像セグメンテーションのための反復クリックロスを用いたカスケードフォワードリファインメント
- Authors: Shoukun Sun, Min Xian, Fei Xu, Tiankai Yao, Luca Capriotti
- Abstract要約: クリックベースおよびマスクガイドによる対話型画像分割フレームワークを提案する。
Cascade-Forward Refinement (CFR)、Iterative Click Loss (ICL)、SUEM Image Augmentationの3つの新しいコンポーネントを含んでいる。
我々のモデルは、バークレーとDAVISのセットで平均2.9クリックと7.5クリックを達成し、前回の最先端結果よりも33.2%と15.5%改善した。
- 参考スコア(独自算出の注目度): 1.4886948709253327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The click-based interactive segmentation aims to extract the object of
interest from an image with the guidance of user clicks. Recent work has
achieved great overall performance by employing the segmentation from the
previous output. However, in most state-of-the-art approaches, 1) the inference
stage involves inflexible heuristic rules and a separate refinement model; and
2) the training cannot balance the number of user clicks and model performance.
To address the challenges, we propose a click-based and mask-guided interactive
image segmentation framework containing three novel components: Cascade-Forward
Refinement (CFR), Iterative Click Loss (ICL), and SUEM image augmentation. The
proposed ICL allows model training to improve segmentation and reduce user
interactions simultaneously. The CFR offers a unified inference framework to
generate segmentation results in a coarse-to-fine manner. The proposed SUEM
augmentation is a comprehensive way to create large and diverse training sets
for interactive image segmentation. Extensive experiments demonstrate the
state-of-the-art performance of the proposed approach on five public datasets.
Remarkably, our model achieves an average of 2.9 and 7.5 clicks of NoC@95 on
the Berkeley and DAVIS sets, respectively, improving by 33.2% and 15.5% over
the previous state-of-the-art results. The code and trained model are available
at https://github.com/TitorX/CFR-ICL-Interactive-Segmentation.
- Abstract(参考訳): クリックベースのインタラクティブセグメンテーションは、ユーザクリックのガイダンスで画像から興味の対象を抽出することを目的としている。
最近の研究は、以前の出力からのセグメンテーションを利用することで、全体的なパフォーマンスを大いに向上させた。
しかし、ほとんどの最先端のアプローチでは。
1) 推論段階は、柔軟性のないヒューリスティックな規則と別個の洗練モデルを含む。
2) トレーニングでは,ユーザクリック数とモデルパフォーマンスのバランスが取れない。
そこで,本研究では,cfr(カスケードフォワードリファインメント),icl(反復クリック損失),sesem画像拡張の3つの新しいコンポーネントを含む,クリックベースおよびマスクガイドによるインタラクティブ画像セグメンテーションフレームワークを提案する。
提案したICLでは,モデルのトレーニングによりセグメンテーションを改善し,ユーザインタラクションを同時に低減することができる。
CFRは、セグメンテーション結果を粗い方法で生成する統合推論フレームワークを提供する。
提案手法は,インタラクティブな画像セグメンテーションのための大規模かつ多様なトレーニングセットを作成するための包括的手法である。
大規模な実験は、5つの公開データセットに対する提案手法の最先端性能を示す。
興味深いことに、我々のモデルはバークレーとDAVISのセットで平均2.9クリックと7.5クリックを達成し、前回の最先端結果よりも33.2%と15.5%改善した。
コードとトレーニングされたモデルはhttps://github.com/TitorX/CFR-ICL-Interactive-Segmentationで公開されている。
関連論文リスト
- Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。
インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。
2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T10:15:53Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and
Inter-Image Attention Design [40.97593636235116]
既存のバックボーン認識モデルに新たなICIIAモジュールを提案する。
特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAはクライアントの歴史的未ラベル画像から関連画像を取得するために、マルチヘッド自己アテンションを導入する。
ICIIAを5つの代表的なデータセットに対して9つのバックボーンモデルを用いて3つの異なる認識タスクを用いて評価した。
論文 参考訳(メタデータ) (2022-11-11T15:33:21Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。