論文の概要: PiClick: Picking the desired mask in click-based interactive
segmentation
- arxiv url: http://arxiv.org/abs/2304.11609v4
- Date: Mon, 29 Jan 2024 14:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:53:46.124629
- Title: PiClick: Picking the desired mask in click-based interactive
segmentation
- Title(参考訳): PiClick:クリックベースのインタラクティブセグメンテーションで望ましいマスクを選ぶ
- Authors: Cilin Yan, Haochen Wang, Jie Liu, Xiaolong Jiang, Yao Hu, Xu Tang,
Guoliang Kang, Efstratios Gavves
- Abstract要約: 対話型セグメンテーションネットワークPiClickを提案する。
PiClickは、相互に対話的なマスククエリによって、潜在的なすべてのマスクを生成する。
Target ReasoningモジュールはPiClickで設計されており、すべての候補からユーザーが望むマスクを自動的に提案する。
- 参考スコア(独自算出の注目度): 48.4733048887101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Click-based interactive segmentation aims to generate target masks via human
clicking, which facilitates efficient pixel-level annotation and image editing.
In such a task, target ambiguity remains a problem hindering the accuracy and
efficiency of segmentation. That is, in scenes with rich context, one click may
correspond to multiple potential targets, while most previous interactive
segmentors only generate a single mask and fail to deal with target ambiguity.
In this paper, we propose a novel interactive segmentation network named
PiClick, to yield all potentially reasonable masks and suggest the most
plausible one for the user. Specifically, PiClick utilizes a Transformer-based
architecture to generate all potential target masks by mutually interactive
mask queries. Moreover, a Target Reasoning module is designed in PiClick to
automatically suggest the user-desired mask from all candidates, relieving
target ambiguity and extra-human efforts. Extensive experiments on 9
interactive segmentation datasets demonstrate PiClick performs favorably
against previous state-of-the-arts considering the segmentation results.
Moreover, we show that PiClick effectively reduces human efforts in annotating
and picking the desired masks. To ease the usage and inspire future research,
we release the source code of PiClick together with a plug-and-play annotation
tool at https://github.com/cilinyan/PiClick.
- Abstract(参考訳): クリックベースのインタラクティブセグメンテーションは、人間のクリックを通じてターゲットマスクを生成することを目的としている。
このようなタスクでは、ターゲットのあいまいさは、セグメンテーションの精度と効率を妨げる問題である。
つまり、リッチなコンテキストのシーンでは、1クリックで複数の潜在的なターゲットに対応できるが、従来の対話型セグメンタは1つのマスクしか生成せず、ターゲットの曖昧さに対処できない。
そこで本稿では,提案するインタラクティブセグメンテーションネットワークであるpiclickを提案する。
具体的には、piclickはtransformerベースのアーキテクチャを使用して、相互に対話的なマスククエリによってすべてのターゲットマスクを生成する。
さらに、ターゲット推論モジュールはPiClickで設計されており、すべての候補からユーザーが望むマスクを自動的に提案し、ターゲットの曖昧さと外的努力を軽減している。
9つの対話型セグメンテーションデータセットに関する広範な実験は、セグメンテーション結果を考慮して、piclickが以前の最先端技術に対して好成績を示している。
さらに,PiClickは,所望のマスクのアノテートや選択において,人間の努力を効果的に削減することを示す。
PiClickのソースコードをhttps://github.com/cilinyan/PiClickのプラグイン・アンド・プレイアノテーションツールと一緒にリリースします。
関連論文リスト
- Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-24T12:57:34Z) - AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation [32.63772366307106]
我々は,複数の3Dオブジェクトの同時セグメンテーションをサポートする,効率的で注目度の高いモデルAGILE3Dを紹介する。
ユーザクリックを空間的時間的クエリとしてエンコードし、クリッククエリと3Dシーン間の明示的なインタラクションを可能にする。
4つの異なる3Dポイントクラウドデータセットによる実験では、AGILE3Dは新たな最先端技術を設定している。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - SimpSON: Simplifying Photo Cleanup with Single-Click Distracting Object
Segmentation Network [70.89436857471887]
ワンクリックでタスクを遂行するために最適化された対話型トラクタ選択法を提案する。
本手法は従来の単視分割法により達成された精度とリコールを超越した手法である。
実験により, 未知の物体を対話的に, グループで効果的に, 正確に識別できることが実証された。
論文 参考訳(メタデータ) (2023-05-28T04:05:24Z) - PseudoClick: Interactive Image Segmentation with Click Imitation [32.84573259701633]
提案するPseudoClickは,既存のセグメンテーションネットワークが候補クリックを提案できる汎用フレームワークである。
これらの自動生成されたクリックは、この作品で擬似クリックと呼ばれ、人間のクリックの模倣として機能し、セグメンテーションマスクを洗練する。
論文 参考訳(メタデータ) (2022-07-12T03:36:20Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - FocalClick: Towards Practical Interactive Image Segmentation [19.472284443121367]
対話的なセグメンテーションにより、ユーザはポジティブ/ネガティブなクリックによってターゲットマスクを抽出できる。
F FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。
プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。
論文 参考訳(メタデータ) (2022-04-06T04:32:01Z) - Clicking Matters:Towards Interactive Human Parsing [60.35351491254932]
この研究は、対話的な環境下での人間の解析課題に取り組む最初の試みである。
ベンチマークLIPでは85% mIoU,PASCAL-Person-Partでは80% mIoU,Helenでは75% mIoU,クラス毎のクリック数は1.95,3.02,2.84,1.09であった。
論文 参考訳(メタデータ) (2021-11-11T11:47:53Z) - UCP-Net: Unstructured Contour Points for Instance Segmentation [2.105564340986074]
本稿では,初期セグメンテーションとセグメンテーションの洗練のために,制約のない輪郭クリックに基づく対話型セグメンテーションを提案する。
本手法は分類に依存しず,一般的なセグメンテーションデータセットの最先端手法よりもユーザインタラクションの少ない精度のセグメンテーションマスク(IoU > 85%)を生成する。
論文 参考訳(メタデータ) (2021-09-15T22:03:37Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。