論文の概要: PiClick: Picking the desired mask in click-based interactive
segmentation
- arxiv url: http://arxiv.org/abs/2304.11609v1
- Date: Sun, 23 Apr 2023 10:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 17:35:17.965927
- Title: PiClick: Picking the desired mask in click-based interactive
segmentation
- Title(参考訳): PiClick:クリックベースのインタラクティブセグメンテーションで望ましいマスクを選ぶ
- Authors: Cilin Yan, Haochen Wang, Jie Liu, Xiaolong Jiang, Yao Hu, Xu Tang,
Guoliang Kang, Efstratios Gavves
- Abstract要約: リッチなコンテキストを持つシーンでは、ワンクリックは対応するマスクに存在する複数の潜在的なターゲットを参照することができる。
意味的に多様化したマスクを生成するために,PiClickを提案する。
Target Reasoning ModuleはPiClickで設計されており、すべての提案からベストマッチしたマスクを自動的に暗示する。
- 参考スコア(独自算出の注目度): 51.56643042623017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Click-based interactive segmentation enables productive pixel-level
annotation and image editing with simple user clicks, whereas target ambiguity
remains a problem hindering precise segmentation. That is, in scenes with rich
context, one click may refer to multiple potential targets residing in
corresponding masks, while most interactive segmentors can only generate one
single mask and fail to capture the rich context. To resolve target ambiguity,
we here propose PiClick to produce semantically diversified masks. PiClick
leverages a transformer network design wherein mutually interactive mask
queries are integrated to infuse target priors. Moreover, a Target Reasoning
Module is designed in PiClick to automatically imply the best-matched mask from
all proposals, significantly relieving target ambiguity as well as extra human
intervention. Extensive experiments conducted on all 9 interactive segmentation
datasets not only demonstrate the state-of-the-art segmentation performance of
PiClick, but also reduces human interventions with multiple proposal generation
and target reasoning. To promote direct usage and future endeavors, we release
the source code of PiClick together with a plug-and-play annotation tool at
https://github.com/cilinyan/PiClick.
- Abstract(参考訳): クリックベースのインタラクティブセグメンテーションは、単純なユーザクリックで生産的なピクセルレベルのアノテーションと画像編集を可能にするが、ターゲットの曖昧さは正確なセグメンテーションを妨げる問題である。
つまり、リッチなコンテキストを持つシーンでは、1クリックで対応するマスクに存在する複数の潜在的なターゲットを参照でき、ほとんどのインタラクティブなセグメンタは1つのマスクしか生成できず、リッチなコンテキストをキャプチャできない。
目的のあいまいさを解決するために,意味的に多様化したマスクを生成するためにPiClickを提案する。
piclickは、相互に対話的なマスククエリを統合してターゲットプリエントを注入するトランスフォーマーネットワーク設計を利用している。
さらに、Target Reasoning ModuleはPiClickで設計されており、すべての提案からベストマッチマスクを自動的に示唆し、ターゲットの曖昧さと追加の人間の介入を著しく軽減する。
9つのインタラクティブセグメンテーションデータセットで行った広範囲な実験は、piclickの最先端セグメンテーション性能を示すだけでなく、複数の提案生成とターゲット推論による人間の介入を減らす。
直接の使用と今後の取り組みを促進するため、PicClickのソースコードをhttps://github.com/cilinyan/PiClickのプラグイン・アンド・プレイアノテーションツールとともにリリースします。
関連論文リスト
- Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-24T12:57:34Z) - AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation [32.63772366307106]
我々は,複数の3Dオブジェクトの同時セグメンテーションをサポートする,効率的で注目度の高いモデルAGILE3Dを紹介する。
ユーザクリックを空間的時間的クエリとしてエンコードし、クリッククエリと3Dシーン間の明示的なインタラクションを可能にする。
4つの異なる3Dポイントクラウドデータセットによる実験では、AGILE3Dは新たな最先端技術を設定している。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - SimpSON: Simplifying Photo Cleanup with Single-Click Distracting Object
Segmentation Network [70.89436857471887]
ワンクリックでタスクを遂行するために最適化された対話型トラクタ選択法を提案する。
本手法は従来の単視分割法により達成された精度とリコールを超越した手法である。
実験により, 未知の物体を対話的に, グループで効果的に, 正確に識別できることが実証された。
論文 参考訳(メタデータ) (2023-05-28T04:05:24Z) - PseudoClick: Interactive Image Segmentation with Click Imitation [32.84573259701633]
提案するPseudoClickは,既存のセグメンテーションネットワークが候補クリックを提案できる汎用フレームワークである。
これらの自動生成されたクリックは、この作品で擬似クリックと呼ばれ、人間のクリックの模倣として機能し、セグメンテーションマスクを洗練する。
論文 参考訳(メタデータ) (2022-07-12T03:36:20Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - FocalClick: Towards Practical Interactive Image Segmentation [19.472284443121367]
対話的なセグメンテーションにより、ユーザはポジティブ/ネガティブなクリックによってターゲットマスクを抽出できる。
F FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。
プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。
論文 参考訳(メタデータ) (2022-04-06T04:32:01Z) - Clicking Matters:Towards Interactive Human Parsing [60.35351491254932]
この研究は、対話的な環境下での人間の解析課題に取り組む最初の試みである。
ベンチマークLIPでは85% mIoU,PASCAL-Person-Partでは80% mIoU,Helenでは75% mIoU,クラス毎のクリック数は1.95,3.02,2.84,1.09であった。
論文 参考訳(メタデータ) (2021-11-11T11:47:53Z) - UCP-Net: Unstructured Contour Points for Instance Segmentation [2.105564340986074]
本稿では,初期セグメンテーションとセグメンテーションの洗練のために,制約のない輪郭クリックに基づく対話型セグメンテーションを提案する。
本手法は分類に依存しず,一般的なセグメンテーションデータセットの最先端手法よりもユーザインタラクションの少ない精度のセグメンテーションマスク(IoU > 85%)を生成する。
論文 参考訳(メタデータ) (2021-09-15T22:03:37Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。