Fugu-MT 論文翻訳(概要): Auto-Vocabulary Semantic Segmentation

論文の概要: Auto-Vocabulary Semantic Segmentation

arxiv url: http://arxiv.org/abs/2312.04539v2
Date: Wed, 20 Mar 2024 16:11:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 22:08:02.166204
Title: Auto-Vocabulary Semantic Segmentation
Title（参考訳）: 自動語彙セマンティックセマンティックセグメンテーション
Authors: Osman Ülger, Maksymilian Kulicki, Yuki Asano, Martin R. Oswald,
Abstract要約: textitAuto-Vocabulary Semantics (AVS)を導入する。本フレームワークは,拡張BLIP埋め込みを用いて,関連クラス名を自律的に識別する。提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定する。
参考スコア（独自算出の注目度）: 13.410217680999462
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-ended image understanding tasks gained significant attention from the research community, particularly with the emergence of Vision-Language Models. Open-Vocabulary Segmentation (OVS) methods are capable of performing semantic segmentation without relying on a fixed vocabulary, and in some cases, they operate without the need for training or fine-tuning. However, OVS methods typically require users to specify the vocabulary based on the task or dataset at hand. In this paper, we introduce \textit{Auto-Vocabulary Semantic Segmentation (AVS)}, advancing open-ended image understanding by eliminating the necessity to predefine object categories for segmentation. Our approach, \ours, presents a framework that autonomously identifies relevant class names using enhanced BLIP embeddings, which are utilized for segmentation afterwards. Given that open-ended object category predictions cannot be directly compared with a fixed ground truth, we develop a Large Language Model-based Auto-Vocabulary Evaluator (LAVE) to efficiently evaluate the automatically generated class names and their corresponding segments. Our method sets new benchmarks on datasets such as PASCAL VOC and Context, ADE20K, and Cityscapes for AVS and showcases competitive performance to OVS methods that require specified class names.
Abstract（参考訳）: オープンエンドの画像理解タスクは、特にビジョン・ランゲージ・モデルの出現によって、研究コミュニティから大きな注目を集めた。 Open-Vocabulary Segmentation (OVS)メソッドは、固定語彙に頼ることなくセマンティックセグメンテーションを実行することができる。しかし、OVSメソッドは通常、ユーザが手元にあるタスクやデータセットに基づいて語彙を指定する必要がある。本稿では, セグメンテーションのための対象カテゴリを事前に定義する必要性を排除し, オープンエンド画像理解を推進すべく, AVS(textit{Auto-Vocabulary Semantic Segmentation)を導入する。提案手法は,拡張BLIP埋め込みを用いて関連クラス名を自律的に識別し,セグメンテーションに利用するためのフレームワークである。オープンな対象カテゴリーの予測が固定された真実と直接比較できないことを考慮し、自動生成されたクラス名とその対応するセグメントを効率的に評価するLarge Language Model-based Auto-Vocabulary Evaluator (LAVE) を開発した。提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定し,特定のクラス名を必要とするOVSメソッドと競合する性能を示す。

関連論文リスト

From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T15:17:08Z)
Lidar Panoptic Segmentation in an Open World [50.094491113541046]
ライダーパノプティクス(LPS)は自動運転車の安全な配備に不可欠である。 LPSは、セマンティッククラスの事前に定義された語彙であるライダーポイントを認識し、セグメント化することを目的としている。階層的な方法で入力クラウドのクラスタリングとオーバーセグメンテーションを提案し,次にバイナリポイントセグメント分類を行う。
論文参考訳（メタデータ） (2024-09-22T00:10:20Z)
Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。 VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文参考訳（メタデータ） (2024-04-16T19:27:21Z)
Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文参考訳（メタデータ） (2024-03-31T14:37:25Z)
TAG: Guidance-free Open-Vocabulary Semantic Segmentation [6.236890292833387]
本稿では,訓練を行うTAGを提案する。ガイダンスフリーのオープン語彙セグメンテーション。外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。我々のTAGは、クラス名を指定せずに、オープン語彙セグメンテーションのためのPascalVOC、PascalContext、ADE20Kの最先端結果を得る。
論文参考訳（メタデータ） (2024-03-17T12:49:02Z)
Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation [33.336549577936196]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。 SemPLeSは、オブジェクトリージョンとクラスラベルのセマンティックアライメントを改善することができるため、セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
論文参考訳（メタデータ） (2024-01-22T09:41:05Z)
Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文参考訳（メタデータ） (2023-12-07T07:00:09Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。 ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-01T08:47:06Z)
Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文参考訳（メタデータ） (2023-05-18T10:40:52Z)
What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文参考訳（メタデータ） (2023-04-05T11:01:23Z)
Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文参考訳（メタデータ） (2023-03-16T09:51:41Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。