Fugu-MT 論文翻訳(概要): CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for Interactive Image Segmentation

論文の概要: CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for Interactive Image Segmentation

arxiv url: http://arxiv.org/abs/2303.05620v2
Date: Mon, 4 Mar 2024 23:05:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 04:00:48.737257
Title: CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for Interactive Image Segmentation
Title（参考訳）: CFR-ICL:インタラクティブ画像セグメンテーションのための反復クリックロスを用いたカスケードフォワードリファインメント
Authors: Shoukun Sun, Min Xian, Fei Xu, Luca Capriotti, Tiankai Yao
Abstract要約: 本稿では,3つの新しいコンポーネントを含むクリックベースおよびマスク誘導型インタラクティブ画像分割フレームワークを提案する。提案フレームワークは,セグメント化結果を粗い方法で生成する統合推論フレームワークを提供する。我々のモデルは33.2%減少し、15.5%は従来の最先端のアプローチで0.95のIoUを超えるのに必要なクリック数である。
参考スコア（独自算出の注目度）: 2.482735440750151
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The click-based interactive segmentation aims to extract the object of interest from an image with the guidance of user clicks. Recent work has achieved great overall performance by employing feedback from the output. However, in most state-of-the-art approaches, 1) the inference stage involves inflexible heuristic rules and requires a separate refinement model, and 2) the number of user clicks and model performance cannot be balanced. To address the challenges, we propose a click-based and mask-guided interactive image segmentation framework containing three novel components: Cascade-Forward Refinement (CFR), Iterative Click Loss (ICL), and SUEM image augmentation. The CFR offers a unified inference framework to generate segmentation results in a coarse-to-fine manner. The proposed ICL allows model training to improve segmentation and reduce user interactions simultaneously. The proposed SUEM augmentation is a comprehensive way to create large and diverse training sets for interactive image segmentation. Extensive experiments demonstrate the state-of-the-art performance of the proposed approach on five public datasets. Remarkably, our model reduces by 33.2\%, and 15.5\% the number of clicks required to surpass an IoU of 0.95 in the previous state-of-the-art approach on the Berkeley and DAVIS sets, respectively.
Abstract（参考訳）: クリックベースのインタラクティブセグメンテーションは、ユーザクリックのガイダンスで画像から興味の対象を抽出することを目的としている。最近の作業は、アウトプットからのフィードバックを利用することで、全体的なパフォーマンスを実現しています。しかし、ほとんどの最先端のアプローチでは。 1) 推論段階は, 柔軟性のないヒューリスティックな規則を伴い, 個別の細分化モデルが必要となる。 2)ユーザのクリック数とモデルパフォーマンスはバランスが取れない。そこで,本研究では,cfr(カスケードフォワードリファインメント),icl(反復クリック損失),sesem画像拡張の3つの新しいコンポーネントを含む,クリックベースおよびマスクガイドによるインタラクティブ画像セグメンテーションフレームワークを提案する。 CFRは、セグメンテーション結果を粗い方法で生成する統合推論フレームワークを提供する。提案したICLでは,モデルのトレーニングによりセグメンテーションを改善し,ユーザインタラクションを同時に低減することができる。提案手法は,インタラクティブな画像セグメンテーションのための大規模かつ多様なトレーニングセットを作成するための包括的手法である。大規模な実験は、5つの公開データセットに対する提案手法の最先端性能を示す。注目すべきことに、我々のモデルは、バークレーとDAVISの以前の最先端アプローチにおいて、それぞれ0.95のIoUを超えるために必要なクリック数(クリック数)を33.2\%、および15.5\%削減する。

関連論文リスト

One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文参考訳（メタデータ） (2025-03-03T03:50:54Z)
Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。両領域間のギャップを狭める効果的なアプローチを提案する。主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文参考訳（メタデータ） (2024-06-17T13:49:12Z)
Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文参考訳（メタデータ） (2024-06-17T12:38:01Z)
IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。 2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文参考訳（メタデータ） (2024-03-22T10:15:53Z)
Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文参考訳（メタデータ） (2023-08-07T12:26:34Z)
Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文参考訳（メタデータ） (2023-03-20T17:58:48Z)
Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。 REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2023-01-17T18:59:06Z)
One-Time Model Adaptation to Heterogeneous Clients: An Intra-Client and Inter-Image Attention Design [40.97593636235116]
既存のバックボーン認識モデルに新たなICIIAモジュールを提案する。特に、特定のクライアントからのターゲット画像が与えられた場合、ICIIAはクライアントの歴史的未ラベル画像から関連画像を取得するために、マルチヘッド自己アテンションを導入する。 ICIIAを5つの代表的なデータセットに対して9つのバックボーンモデルを用いて3つの異なる認識タスクを用いて評価した。
論文参考訳（メタデータ） (2022-11-11T15:33:21Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
FAIRS -- Soft Focus Generator and Attention for Robust Object Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文参考訳（メタデータ） (2020-04-04T22:25:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。