Fugu-MT 論文翻訳(概要): Diffusion Models for Open-Vocabulary Segmentation

論文の概要: Diffusion Models for Open-Vocabulary Segmentation

arxiv url: http://arxiv.org/abs/2306.09316v2
Date: Mon, 30 Sep 2024 03:17:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 17:35:30.070094
Title: Diffusion Models for Open-Vocabulary Segmentation
Title（参考訳）: 開語彙セグメンテーションのための拡散モデル
Authors: Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht,
Abstract要約: OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
参考スコア（独自算出の注目度）: 79.02153797465324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-vocabulary segmentation is the task of segmenting anything that can be named in an image. Recently, large-scale vision-language modelling has led to significant advances in open-vocabulary segmentation, but at the cost of gargantuan and increasing training and annotation efforts. Hence, we ask if it is possible to use existing foundation models to synthesise on-demand efficient segmentation algorithms for specific class sets, making them applicable in an open-vocabulary setting without the need to collect further data, annotations or perform training. To that end, we present OVDiff, a novel method that leverages generative text-to-image diffusion models for unsupervised open-vocabulary segmentation. OVDiff synthesises support image sets for arbitrary textual categories, creating for each a set of prototypes representative of both the category and its surrounding context (background). It relies solely on pre-trained components and outputs the synthesised segmenter directly, without training. Our approach shows strong performance on a range of benchmarks, obtaining a lead of more than 5% over prior work on PASCAL VOC.
Abstract（参考訳）: オープンボキャブラリセグメンテーション(Open-vocabulary segmentation)は、画像に名前をつけることができるものをセグメンテーションするタスクである。近年、大規模視覚言語モデリングは、オープン語彙のセグメンテーションにおいて顕著な進歩をもたらしたが、ガーガントゥアンのコストと訓練とアノテーションの努力の増大に繋がった。したがって、既存の基礎モデルを用いて、特定のクラスセットに対してオンデマンドで効率的なセグメンテーションアルゴリズムを合成できるかどうかを問う。そこで本研究では,教師なしオープン語彙セグメンテーションのための生成テキスト・画像拡散モデルを活用する新しい手法であるOVDiffを提案する。 OVDiff合成は任意のテキストカテゴリのイメージセットをサポートし、各カテゴリとその周辺コンテキスト(背景)を表すプロトタイプのセットを作成する。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。提案手法は, PASCAL VOCの先行研究よりも5%以上, 高い性能を示す。

関連論文リスト

The Power of One: A Single Example is All it Takes for Segmentation in VLMs [29.735863112700358]
大規模視覚言語モデル(VLM)は、テキスト記述と画像領域の関連性を暗黙的に学習することで、強力なマルチモーダル理解能力を示す。この創発的能力は、テキストイメージの注意マップに依存する技術を用いて、ゼロショットオブジェクトの検出とセグメンテーションを可能にする。提案手法は, ゼロショット性能が向上し, 単一視覚例による微調整によりさらに向上することを示す。
論文参考訳（メタデータ） (2025-03-13T18:18:05Z)
Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models [7.374726900469744]
Open-vocabulary semantic segmentationは任意のテキストラベルを使って画像内のオブジェクトの分類とアウトライン化を試みる。本研究では,オープン語彙セマンティックセグメンテーションタスクにおいて,これまでに学習した基礎モデルを適応するための単純かつ効率的な手法について検討する。本稿では,少数の画像分割データを用いて,凍結した視覚表現と言語概念を融合する軽量トランスフォーマーベース融合モジュール「Beyond-Labels」を提案する。
論文参考訳（メタデータ） (2025-01-28T07:49:52Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文参考訳（メタデータ） (2024-06-07T21:41:18Z)
Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。 FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-09T18:00:25Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。 3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文参考訳（メタデータ） (2023-09-06T06:31:08Z)
Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。 ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-01T08:47:06Z)
Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文参考訳（メタデータ） (2023-03-20T17:58:48Z)
SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文参考訳（メタデータ） (2021-04-19T11:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。