論文の概要: Prompt-Based Multi-Modal Image Segmentation
- arxiv url: http://arxiv.org/abs/2112.10003v1
- Date: Sat, 18 Dec 2021 21:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:36:51.526114
- Title: Prompt-Based Multi-Modal Image Segmentation
- Title(参考訳): プロンプトベースマルチモーダル画像分割
- Authors: Timo L\"uddecke and Alexander S. Ecker
- Abstract要約: テスト時に任意のプロンプトに基づいて画像セグメンテーションを生成するシステムを提案する。
プロンプトはテキストかイメージのいずれかでもよい。
私たちはCLIPモデルをバックボーンとして構築し、トランスフォーマーベースのデコーダで拡張します。
- 参考スコア(独自算出の注目度): 81.58378196535003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image segmentation is usually addressed by training a model for a fixed set
of object classes. Incorporating additional classes or more complex queries
later is expensive as it requires re-training the model on a dataset that
encompasses these expressions. Here we propose a system that can generate image
segmentations based on arbitrary prompts at test time. A prompt can be either a
text or an image. This approach enables us to create a unified model (trained
once) for three common segmentation tasks, which come with distinct challenges:
referring expression segmentation, zero-shot segmentation and one-shot
segmentation. We build upon the CLIP model as a backbone which we extend with a
transformer-based decoder that enables dense prediction. After training on an
extended version of the PhraseCut dataset, our system generates a binary
segmentation map for an image based on a free-text prompt or on an additional
image expressing the query. Different variants of the latter image-based
prompts are analyzed in detail. This novel hybrid input allows for dynamic
adaptation not only to the three segmentation tasks mentioned above, but to any
binary segmentation task where a text or image query can be formulated.
Finally, we find our system to adapt well to generalized queries involving
affordances or properties. Source code: https://eckerlab.org/code/clipseg
- Abstract(参考訳): イメージセグメンテーションは通常、固定されたオブジェクトクラスのモデルのトレーニングによって対処される。
追加のクラスや複雑なクエリを後で組み込むことは、これらの式を含むデータセットでモデルを再トレーニングする必要があるため、コストがかかる。
本稿では,テスト時に任意のプロンプトに基づいて画像セグメンテーションを生成するシステムを提案する。
プロンプトはテキストかイメージのいずれかでもよい。
このアプローチでは,3つの共通セグメンテーションタスクに対して,表現セグメンテーション,ゼロショットセグメンテーション,ワンショットセグメンテーションの3つを統一したモデル(1回学習)を作成することができる。
私たちはクリップモデルをバックボーンとして構築し、密集した予測を可能にするトランスフォーマベースのデコーダで拡張します。
フレーズカットデータセットの拡張バージョンでトレーニングした後、システムは、フリーテキストプロンプトまたはクエリを表現した追加画像に基づいて、画像のバイナリセグメンテーションマップを生成する。
後者の画像に基づくプロンプトの異なる変種を詳細に分析する。
この新しいハイブリッド入力により、上述の3つのセグメンテーションタスクだけでなく、テキストや画像クエリを定式化できる任意のバイナリセグメンテーションタスクにも動的に適応することができる。
最後に,本システムは,アプライアンスやプロパティを含む汎用クエリにうまく適応できることを示す。
ソースコード: https://eckerlab.org/code/clipseg
関連論文リスト
- IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。
インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。
2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T10:15:53Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Text and Click inputs for unambiguous open vocabulary instance
segmentation [21.03169732771627]
そこで本研究では,画像入力としてモデルが取る新たなセグメンテーションプロセスであるText + Clickと,セグメンテーションにクラスを記述するテキストフレーズと,セグメンテーションにインスタンスを指定する1つのフォアグラウンドクリックを提案する。
ユーザが指定した1つのフォアグラウンドクリックとテキストプロンプトを組み合わせることで、モデルの重複や共起のセマンティックカテゴリをより曖昧にすることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T19:37:57Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - Semantically Meaningful Class Prototype Learning for One-Shot Image
Semantic Segmentation [58.96902899546075]
ワンショットセマンティックイメージセグメンテーションは、1つの注釈付きイメージで新しいクラスのオブジェクト領域を分割することを目的としている。
最近の研究では、テスト時に予想される状況を模倣するために、エピソディクストレーニング戦略を採用している。
エピソードトレーニングにおいて,マルチクラスラベル情報を活用することを提案する。
ネットワークが各カテゴリに対してより意味のある機能を生成するように促すだろう。
論文 参考訳(メタデータ) (2021-02-22T12:07:35Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。