論文の概要: Text and Click inputs for unambiguous open vocabulary instance
segmentation
- arxiv url: http://arxiv.org/abs/2311.14822v1
- Date: Fri, 24 Nov 2023 19:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 23:20:16.038302
- Title: Text and Click inputs for unambiguous open vocabulary instance
segmentation
- Title(参考訳): あいまいなopen vocabularyインスタンスセグメンテーションのためのテキストおよびクリック入力
- Authors: Nikolai Warner, Meera Hahn, Jonathan Huang, Irfan Essa, Vighnesh
Birodkar
- Abstract要約: そこで本研究では,画像入力としてモデルが取る新たなセグメンテーションプロセスであるText + Clickと,セグメンテーションにクラスを記述するテキストフレーズと,セグメンテーションにインスタンスを指定する1つのフォアグラウンドクリックを提案する。
ユーザが指定した1つのフォアグラウンドクリックとテキストプロンプトを組み合わせることで、モデルの重複や共起のセマンティックカテゴリをより曖昧にすることができることを示す。
- 参考スコア(独自算出の注目度): 21.03169732771627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmentation localizes objects in an image on a fine-grained per-pixel scale.
Segmentation benefits by humans-in-the-loop to provide additional input of
objects to segment using a combination of foreground or background clicks.
Tasks include photoediting or novel dataset annotation, where human annotators
leverage an existing segmentation model instead of drawing raw pixel level
annotations. We propose a new segmentation process, Text + Click segmentation,
where a model takes as input an image, a text phrase describing a class to
segment, and a single foreground click specifying the instance to segment.
Compared to previous approaches, we leverage open-vocabulary image-text models
to support a wide-range of text prompts. Conditioning segmentations on text
prompts improves the accuracy of segmentations on novel or unseen classes. We
demonstrate that the combination of a single user-specified foreground click
and a text prompt allows a model to better disambiguate overlapping or
co-occurring semantic categories, such as "tie", "suit", and "person". We study
these results across common segmentation datasets such as refCOCO, COCO, VOC,
and OpenImages. Source code available here.
- Abstract(参考訳): セグメンテーションは画像内のオブジェクトをピクセル単位のきめ細かいスケールでローカライズする。
人間のループによるセグメント化の利点は、前景と背景のクリックの組み合わせを使ってセグメントへのオブジェクトの追加入力を提供する。
タスクにはフォトエディタや新しいデータセットアノテーションが含まれており、人間のアノテーションはピクセルレベルのアノテーションではなく、既存のセグメンテーションモデルを活用する。
そこで我々は,画像入力としてモデルを取り込むテキスト+クリックセグメンテーション,セグメンテーションにクラスを記述するテキストフレーズ,セグメンテーションにインスタンスを指定する前景クリックという新しいセグメンテーションプロセスを提案する。
従来のアプローチと比較して,オープンボキャブラリな画像テキストモデルを活用して,幅広いテキストプロンプトをサポートする。
テキストプロンプトの条件付けセグメンテーションは、新規クラスや未公開クラスのセグメンテーションの精度を向上させる。
ユーザが指定した1つのフォアグラウンドクリックとテキストプロンプトを組み合わせることで、モデルが"tie"や"suit"、"person"といった、重複や共起のセマンティックカテゴリをより曖昧にすることができることを示す。
これらの結果は、refCOCO、COCO、VOC、OpenImagesなどの一般的なセグメンテーションデータセットにまたがって研究される。
ソースコードはこちら。
関連論文リスト
- USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。
インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。
2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T10:15:53Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Synthetic Instance Segmentation from Semantic Image Segmentation Masks [15.477053085267404]
我々は、Synthetic Instance(SISeg)と呼ばれる新しいパラダイムを提案する。
SISegインスタンスセグメンテーションの結果は、既存のセマンティックセグメンテーションモデルによって生成されたイメージマスクを活用する。
言い換えれば、提案モデルは余分な人力や高い計算コストを必要としない。
論文 参考訳(メタデータ) (2023-08-02T05:13:02Z) - Interactive Segmentation for Diverse Gesture Types Without Context [19.29886866117842]
本稿では,画像のみをマークしなければならない簡易な対話型セグメンテーションタスクを提案する。
入力は、任意のジェスチャータイプを指定せずに、任意のジェスチャータイプを指定できる。
我々は,新しいタスクに適応したセグメンテーションを含む対話的セグメンテーションアルゴリズムを多数分析する。
論文 参考訳(メタデータ) (2023-07-20T01:37:32Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Prompt-Based Multi-Modal Image Segmentation [81.58378196535003]
テスト時に任意のプロンプトに基づいて画像セグメンテーションを生成するシステムを提案する。
プロンプトはテキストかイメージのいずれかでもよい。
私たちはCLIPモデルをバックボーンとして構築し、トランスフォーマーベースのデコーダで拡張します。
論文 参考訳(メタデータ) (2021-12-18T21:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。