Fugu-MT 論文翻訳(概要): Self-Guided Open-Vocabulary Semantic Segmentation

論文の概要: Self-Guided Open-Vocabulary Semantic Segmentation

arxiv url: http://arxiv.org/abs/2312.04539v1
Date: Thu, 7 Dec 2023 18:55:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 13:33:38.988554
Title: Self-Guided Open-Vocabulary Semantic Segmentation
Title（参考訳）: 自己誘導型オープンボカブラリーセマンティクスセグメンテーション
Authors: Osman \"Ulger, Maksymilian Kulicki, Yuki Asano, Martin R. Oswald
Abstract要約: VLM(Vision-Language Models)は、オープンな画像理解タスクのための有望なツールとして登場した。オープン語彙セグメンテーションのためのSelf-Guided Semantic(Self-Seg)フレームワークを提案する。クラス名を指定せずにオープン語彙セグメンテーションを行うため,Pascal VOC,ADE20K,CityScapesの最先端結果を得た。
参考スコア（独自算出の注目度）: 14.403912198859722
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have emerged as promising tools for open-ended image understanding tasks, including open vocabulary segmentation. Yet, direct application of such VLMs to segmentation is non-trivial, since VLMs are trained with image-text pairs and naturally lack pixel-level granularity. Recent works have made advancements in bridging this gap, often by leveraging the shared image-text space in which the image and a provided text prompt are represented. In this paper, we challenge the capabilities of VLMs further and tackle open-vocabulary segmentation without the need for any textual input. To this end, we propose a novel Self-Guided Semantic Segmentation (Self-Seg) framework. Self-Seg is capable of automatically detecting relevant class names from clustered BLIP embeddings and using these for accurate semantic segmentation. In addition, we propose an LLM-based Open-Vocabulary Evaluator (LOVE) to effectively assess predicted open-vocabulary class names. We achieve state-of-the-art results on Pascal VOC, ADE20K and CityScapes for open-vocabulary segmentation without given class names, as well as competitive performance with methods where class names are given. All code and data will be released.
Abstract（参考訳）: VLM(Vision-Language Models)は、オープン語彙セグメンテーションを含む、オープンな画像理解タスクのための有望なツールとして登場した。しかし、VLMは画像テキストペアで訓練されており、ピクセルレベルの粒度を欠いているため、セグメント化への直接適用は簡単ではない。最近の研究は、画像と提供されたテキストプロンプトが表現される共有画像テキスト空間を活用することで、このギャップを埋める進化を遂げている。本稿では、VLMのさらなる機能に挑戦し、テキスト入力を必要とせずにオープン語彙セグメンテーションに取り組む。そこで我々は,自己ガイド型セマンティックセマンティックセグメンテーション(Self-Seg)フレームワークを提案する。 Self-Segは、クラスタ化されたBLIP埋め込みから関連するクラス名を自動的に検出し、それらを正確なセマンティックセグメンテーションに使用することができる。さらに,LLMに基づくオープン語彙評価器 (LOVE) を提案し,予測されたオープン語彙クラス名を効果的に評価する。クラス名を指定せずにオープン語彙セグメンテーションを行うPascal VOC,ADE20K,CityScapesの最先端結果と,クラス名を付与する手法との競合性能について述べる。すべてのコードとデータがリリースされる。

関連論文リスト

From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T15:17:08Z)
Lidar Panoptic Segmentation in an Open World [50.094491113541046]
ライダーパノプティクス(LPS)は自動運転車の安全な配備に不可欠である。 LPSは、セマンティッククラスの事前に定義された語彙であるライダーポイントを認識し、セグメント化することを目的としている。階層的な方法で入力クラウドのクラスタリングとオーバーセグメンテーションを提案し,次にバイナリポイントセグメント分類を行う。
論文参考訳（メタデータ） (2024-09-22T00:10:20Z)
Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。 VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文参考訳（メタデータ） (2024-04-16T19:27:21Z)
Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文参考訳（メタデータ） (2024-03-31T14:37:25Z)
TAG: Guidance-free Open-Vocabulary Semantic Segmentation [6.236890292833387]
本稿では,訓練を行うTAGを提案する。ガイダンスフリーのオープン語彙セグメンテーション。外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。我々のTAGは、クラス名を指定せずに、オープン語彙セグメンテーションのためのPascalVOC、PascalContext、ADE20Kの最先端結果を得る。
論文参考訳（メタデータ） (2024-03-17T12:49:02Z)
Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation [33.336549577936196]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。 SemPLeSは、オブジェクトリージョンとクラスラベルのセマンティックアライメントを改善することができるため、セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
論文参考訳（メタデータ） (2024-01-22T09:41:05Z)
Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文参考訳（メタデータ） (2023-12-07T07:00:09Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。 ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-01T08:47:06Z)
Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文参考訳（メタデータ） (2023-05-18T10:40:52Z)
What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文参考訳（メタデータ） (2023-04-05T11:01:23Z)
Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文参考訳（メタデータ） (2023-03-16T09:51:41Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。