論文の概要: SLiMe: Segment Like Me
- arxiv url: http://arxiv.org/abs/2309.03179v1
- Date: Wed, 6 Sep 2023 17:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 14:25:43.171129
- Title: SLiMe: Segment Like Me
- Title(参考訳): slime: 私のようなセグメント
- Authors: Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi
Amiri, Ghassan Hamarneh
- Abstract要約: 1つの注釈付きサンプルを用いて任意の粒度で画像を分割するSLiMeを提案する。
各種設計因子について知識豊富な実験を行い,SLiMeが既存の一発・小発のセグメンテーション法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 26.021604078262055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant strides have been made using large vision-language models, like
Stable Diffusion (SD), for a variety of downstream tasks, including image
editing, image correspondence, and 3D shape generation. Inspired by these
advancements, we explore leveraging these extensive vision-language models for
segmenting images at any desired granularity using as few as one annotated
sample by proposing SLiMe. SLiMe frames this problem as an optimization task.
Specifically, given a single training image and its segmentation mask, we first
extract attention maps, including our novel "weighted accumulated
self-attention map" from the SD prior. Then, using the extracted attention
maps, the text embeddings of Stable Diffusion are optimized such that, each of
them, learn about a single segmented region from the training image. These
learned embeddings then highlight the segmented region in the attention maps,
which in turn can then be used to derive the segmentation map. This enables
SLiMe to segment any real-world image during inference with the granularity of
the segmented region in the training image, using just one example. Moreover,
leveraging additional training data when available, i.e. few-shot, improves the
performance of SLiMe. We carried out a knowledge-rich set of experiments
examining various design factors and showed that SLiMe outperforms other
existing one-shot and few-shot segmentation methods.
- Abstract(参考訳): 画像編集、画像対応、および3d形状生成を含む様々な下流タスクのために、stable diffusion (sd) のような大きな視覚言語モデルを使用して大きな進歩を遂げた。
これらの進歩に触発されて、SLiMeを提案することで1つの注釈付きサンプルを用いて、任意の粒度で画像のセグメンテーションにこれらの広範囲な視覚言語モデルを活用することを検討する。
SLiMeはこの問題を最適化タスクとして捉えている。
具体的には,1枚のトレーニング画像とそのセグメンテーションマスクから,SD前の「重み付き累積自己注意マップ」を含む注意マップを抽出する。
そして、抽出した注目マップを用いて、安定拡散のテキスト埋め込みを最適化し、トレーニング画像からそれぞれ1つのセグメント化された領域について学習する。
これらの学習された埋め込みはアテンションマップのセグメンテーション領域を強調し、それによってセグメンテーションマップを導出することができる。
これにより、SLiMeはトレーニングイメージ内のセグメント化された領域の粒度の推論中に、たった1つの例を使って、現実世界の画像をセグメント化できる。
さらに、利用可能な追加のトレーニングデータ、すなわち数ショットを活用することで、SLiMeのパフォーマンスが向上する。
各種設計因子について知識に富んだ実験を行い,スライムは他のワンショットおよびマイナショットセグメンテーション法よりも優れていることを示した。
関連論文リスト
- Image Segmentation in Foundation Model Era: A Survey [99.19456390358211]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-08-23T10:07:59Z) - Leveraging image captions for selective whole slide image annotation [0.37334049820361814]
本稿では,モデルトレーニングを最適化する特定の画像領域の同定とアノテーションについて述べる。
プロトタイプサンプリングは、価値あるトレーニング情報を持つアノテーション領域を特定する際に、ランダムサンプリングや多様性サンプリングよりも効果的である。
本結果より, アノテーション領域の同定において, プロトタイプサンプリングの方が, ランダムサンプリングや多様性サンプリングよりも有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T20:05:21Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Few-shot Multispectral Segmentation with Representations Generated by Reinforcement Learning [0.0]
本稿では,強化学習を用いたマルチスペクトル画像における少数ショットセグメンテーション性能向上のための新しい手法を提案する。
我々の手法は、エージェントを訓練して、小さなデータセットを使って最も情報に富む表現を識別することを含む。
表現の長さが限られているため、モデルはオーバーフィッティングのリスクを伴わずに有用な表現を受け取る。
論文 参考訳(メタデータ) (2023-11-20T15:04:16Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Baking in the Feature: Accelerating Volumetric Segmentation by Rendering
Feature Maps [42.34064154798376]
既存の大規模データセットで訓練されたモデルから抽出した特徴を用いてセグメント化性能を向上させることを提案する。
この特徴表現をNeRF(Neural Radiance Field)に、特徴マップを体積的にレンダリングし、各入力画像から抽出した特徴を監督することにより、焼成する。
提案手法は,既存手法よりも意味的アノテーションが少なく,多様な場面で高いセグメンテーション精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-09-26T14:52:10Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Learning to Segment from Scribbles using Multi-scale Adversarial
Attention Gates [16.28285034098361]
弱い教師付き学習は、スクリブルのような弱いアノテーション形式に依存してモデルを訓練することができる。
我々は、複数の解像度でリアルなセグメンテーションマスクを生成するために、マルチスケールのGANをトレーニングし、スクリブルを使用して画像中の正しい位置を学習する。
モデルの成功の中心は、敵の信号が先行した形状として振る舞うことを条件とした、新しいアテンションゲーティング機構である。
論文 参考訳(メタデータ) (2020-07-02T14:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。