論文の概要: FocalClick-XL: Towards Unified and High-quality Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2506.14686v1
- Date: Tue, 17 Jun 2025 16:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.570722
- Title: FocalClick-XL: Towards Unified and High-quality Interactive Segmentation
- Title(参考訳): FocalClick-XL: 統一的で高品質なインタラクティブセグメンテーションを目指して
- Authors: Xi Chen, Hengshuang Zhao,
- Abstract要約: 本稿では,FocalClickの古典的粗大な設計を再考する。
マルチステージ戦略にヒントを得て,新しいパイプラインFocalClick-XLを提案する。
微細な詳細でアルファマットを予測することができ、インタラクティブなセグメンテーションのための汎用的で強力なツールとなる。
- 参考スコア(独自算出の注目度): 30.83143881909766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive segmentation enables users to extract binary masks of target objects through simple interactions such as clicks, scribbles, and boxes. However, existing methods often support only limited interaction forms and struggle to capture fine details. In this paper, we revisit the classical coarse-to-fine design of FocalClick and introduce significant extensions. Inspired by its multi-stage strategy, we propose a novel pipeline, FocalClick-XL, to address these challenges simultaneously. Following the emerging trend of large-scale pretraining, we decompose interactive segmentation into meta-tasks that capture different levels of information -- context, object, and detail -- assigning a dedicated subnet to each level.This decomposition allows each subnet to undergo scaled pretraining with independent data and supervision, maximizing its effectiveness. To enhance flexibility, we share context- and detail-level information across different interaction forms as common knowledge while introducing a prompting layer at the object level to encode specific interaction types. As a result, FocalClick-XL achieves state-of-the-art performance on click-based benchmarks and demonstrates remarkable adaptability to diverse interaction formats, including boxes, scribbles, and coarse masks. Beyond binary mask generation, it is also capable of predicting alpha mattes with fine-grained details, making it a versatile and powerful tool for interactive segmentation.
- Abstract(参考訳): インタラクティブセグメンテーションでは、クリック、スクリブル、ボックスなどの単純なインタラクションを通じて、ターゲットオブジェクトのバイナリマスクを抽出することができる。
しかし、既存の手法はしばしば限られた相互作用形式のみをサポートし、細部を捉えるのに苦労する。
本稿では、FocalClickの古典的粗大な設計を再検討し、重要な拡張を導入する。
マルチステージ戦略にヒントを得て,これらの課題に同時に対処する新しいパイプラインFocalClick-XLを提案する。
大規模事前トレーニングのトレンドに続き、インタラクティブなセグメンテーションをメタタスクに分解し、各レベルに専用のサブネットを割り当てる。この分解により、各サブネットは独立したデータと監督によってスケールされた事前トレーニングを行い、その効果を最大化することができる。
柔軟性を高めるために、異なる相互作用形式をまたいだコンテキストレベルの情報と詳細レベルの情報を共通知識として共有し、オブジェクトレベルでプロンプト層を導入し、特定の相互作用タイプをエンコードする。
結果として、FocalClick-XLはクリックベースのベンチマークで最先端のパフォーマンスを達成し、ボックス、スクリブル、粗いマスクを含む多様なインタラクションフォーマットに顕著な適応性を示す。
二項マスク生成以外にも、微細な詳細でアルファマットを予測できるため、インタラクティブなセグメンテーションのための汎用的で強力なツールである。
関連論文リスト
- InterFormer: Towards Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction [72.50606292994341]
我々はインターリービング方式で異種情報インタラクションを学習するInterFormerという新しいモジュールを提案する。
提案するInterFormerは,3つのパブリックデータセットと大規模産業データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-15T00:20:36Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Boundary-aware Supervoxel-level Iteratively Refined Interactive 3D Image
Segmentation with Multi-agent Reinforcement Learning [33.181732857907384]
我々は,マルコフ決定プロセス(MDP)を用いた対話型画像分割をモデル化し,強化学習(RL)による解法を提案する。
ボクセル単位の予測のための大規模な探索空間を考えると, エージェント間でボクセルレベルポリシーを共有するマルチエージェント強化学習が採用されている。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-19T15:52:56Z) - Cascaded Sparse Feature Propagation Network for Interactive Segmentation [18.584007891618096]
ユーザが提供する情報をラベルなし領域に伝播するためのクリック拡張特徴表現を学習するカスケードスパース特徴伝達ネットワークを提案する。
提案手法の有効性を,様々なベンチマークによる総合的な実験により検証し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-03-10T03:47:24Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。