論文の概要: INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation
- arxiv url: http://arxiv.org/abs/2501.18753v1
- Date: Thu, 30 Jan 2025 21:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:02.513072
- Title: INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation
- Title(参考訳): INT: タスクジェネリックなプロンプタブルセグメンテーションのためのインスタンス固有の負のマイニング
- Authors: Jian Hu, Zixu Cheng, Shaogang Gong,
- Abstract要約: textbfTask-Generic Promptable (textbfINT) のための textbfInstance 固有の textbfNegative Mining を導入する。
Intは、(1)インスタンス固有のプロンプト生成、(2)インスタンス固有のプロンプトのセマンティックスと正しく一致することを保証するセマンティックマスク生成、の2つのコンポーネントから構成される。
Intは、カモフラージュされたオブジェクトや医療画像を含む6つのデータセットで検証され、その有効性、堅牢性、拡張性を示している。
- 参考スコア(独自算出の注目度): 31.734740711205227
- License:
- Abstract: Task-generic promptable image segmentation aims to achieve segmentation of diverse samples under a single task description by utilizing only one task-generic prompt. Current methods leverage the generalization capabilities of Vision-Language Models (VLMs) to infer instance-specific prompts from these task-generic prompts in order to guide the segmentation process. However, when VLMs struggle to generalise to some image instances, predicting instance-specific prompts becomes poor. To solve this problem, we introduce \textbf{I}nstance-specific \textbf{N}egative Mining for \textbf{T}ask-Generic Promptable Segmentation (\textbf{INT}). The key idea of INT is to adaptively reduce the influence of irrelevant (negative) prior knowledge whilst to increase the use the most plausible prior knowledge, selected by negative mining with higher contrast, in order to optimise instance-specific prompts generation. Specifically, INT consists of two components: (1) instance-specific prompt generation, which progressively fliters out incorrect information in prompt generation; (2) semantic mask generation, which ensures each image instance segmentation matches correctly the semantics of the instance-specific prompts. INT is validated on six datasets, including camouflaged objects and medical images, demonstrating its effectiveness, robustness and scalability.
- Abstract(参考訳): タスク・ジェネリック・プロシージャ・イメージ・セグメンテーションは,1つのタスク・ジェネリック・プロシージャのみを利用することで,単一のタスク記述に基づく多様なサンプルのセグメンテーションを実現することを目的としている。
現在の手法では、視覚言語モデル(VLM)の一般化機能を利用して、これらのタスクジェネリックプロンプトからインスタンス固有のプロンプトを推論し、セグメンテーションプロセスを導く。
しかしながら、VLMがいくつかのイメージインスタンスに一般化するのに苦労すると、インスタンス固有のプロンプトの予測が不十分になる。
この問題を解決するために, \textbf{I}nstance-specific \textbf{N}egative Mining for \textbf{T}ask-Generic Promptable Segmentation (\textbf{INT})を提案する。
INTの鍵となる考え方は、インスタンス固有のプロンプト生成を最適化するために、より高いコントラストで負のマイニングによって選択された最も有効な事前知識の使用を増加させながら、無関係な(負の)事前知識の影響を適応的に減少させることである。
具体的には、(1)インスタンス固有のプロンプト生成、(2)インスタンス固有のプロンプトのセグメンテーションが正しく一致することを保証するセマンティックマスク生成、という2つのコンポーネントから構成される。
INTは、カモフラージュされたオブジェクトや医療画像を含む6つのデータセットで検証されており、その有効性、堅牢性、拡張性を示している。
関連論文リスト
- Instance-Aware Generalized Referring Expression Segmentation [32.96760407482406]
InstAlignは、セグメンテーションプロセスにオブジェクトレベルの推論を組み込むメソッドである。
提案手法は最先端性能を著しく向上させ, 高精度かつ柔軟なGRESのための新しい標準を設定した。
論文 参考訳(メタデータ) (2024-11-22T17:28:43Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation [74.04806143723597]
本稿では,プロペラジェネレータとマスクジェネレータを備えたProMaC(Prompt-Mask Cycle Generation framework)を提案する。
プロンプトジェネレータは、最初は、テストイメージ上で拡張された文脈知識を抽出するための幻覚を探究する、複数スケールの思考プロンプトの連鎖を使用する。
生成されたマスクは、プロンプトジェネレータを反復的にタスク関連の画像領域に集中させ、無関係な幻覚を減らし、より良いプロンプトとマスクを共同で生成する。
論文 参考訳(メタデータ) (2024-08-27T17:06:22Z) - Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects [32.14438610147615]
我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。
3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T15:43:36Z) - Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-24T12:57:34Z) - Explicit Visual Prompting for Universal Foreground Segmentations [55.51869354956533]
我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。
我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。
本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
論文 参考訳(メタデータ) (2023-05-29T11:05:01Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。