Fugu-MT 論文翻訳(概要): Training-Free Semantic Segmentation via LLM-Supervision

論文の概要: Training-Free Semantic Segmentation via LLM-Supervision

arxiv url: http://arxiv.org/abs/2404.00701v1
Date: Sun, 31 Mar 2024 14:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 02:11:04.524312
Title: Training-Free Semantic Segmentation via LLM-Supervision
Title（参考訳）: LLMスーパービジョンによる無訓練セマンティックセマンティックセグメンテーション
Authors: Wenfang Sun, Yingjun Du, Gaowen Liu, Ramana Kompella, Cees G. M. Snoek,
Abstract要約: 本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
参考スコア（独自算出の注目度）: 37.9007813884699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in open vocabulary models, like CLIP, have notably advanced zero-shot classification and segmentation by utilizing natural language for class-specific embeddings. However, most research has focused on improving model accuracy through prompt engineering, prompt learning, or fine-tuning with limited labeled data, thereby overlooking the importance of refining the class descriptors. This paper introduces a new approach to text-supervised semantic segmentation using supervision by a large language model (LLM) that does not require extra training. Our method starts from an LLM, like GPT-3, to generate a detailed set of subclasses for more accurate class representation. We then employ an advanced text-supervised semantic segmentation model to apply the generated subclasses as target labels, resulting in diverse segmentation results tailored to each subclass's unique characteristics. Additionally, we propose an assembly that merges the segmentation maps from the various subclass descriptors to ensure a more comprehensive representation of the different aspects in the test images. Through comprehensive experiments on three standard benchmarks, our method outperforms traditional text-supervised semantic segmentation methods by a marked margin.
Abstract（参考訳）: CLIPのようなオープン語彙モデルの最近の進歩は、クラス固有の埋め込みに自然言語を活用することにより、ゼロショット分類とセグメンテーションが著しく進歩している。しかし、ほとんどの研究は、素早い工学、素早い学習、限られたラベル付きデータによる微調整によるモデル精度の向上に重点を置いており、クラス記述子を書き換えることの重要性を見越している。本稿では,大規模言語モデル (LLM) を用いたテキスト教師ありセマンティックセマンティックセマンティクスへの新たなアプローチを提案する。我々の手法は GPT-3 のような LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用し、その結果、各サブクラスの固有の特徴に合わせた多様なセマンティクス結果を得る。さらに,各サブクラス記述子からのセグメンテーションマップをマージして,テスト画像のさまざまな側面をより包括的に表現するアセンブリを提案する。 3つの標準ベンチマークに関する総合的な実験を通じて、本手法は従来のテキスト教師ありセマンティックセグメンテーション法よりも有意なマージンで優れている。

関連論文リスト

Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2025-01-27T20:02:12Z)
Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-14T14:31:36Z)
LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-30T05:49:42Z)
Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2024-07-14T15:02:54Z)
CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文参考訳（メタデータ） (2023-10-03T09:33:47Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
Boosting Semantic Segmentation from the Perspective of Explicit Class Embeddings [19.997929884477628]
クラス埋め込みのメカニズムを探求し、クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。マルチステージ画像特徴との相互作用において,クラス埋め込みを明示的に獲得・拡張する新たなセグメンテーションパラダイムであるECENetを提案する。 ECENetはADE20Kデータセットよりもはるかに少ない計算コストでパフォーマンスを向上し、PASCAL-Contextデータセット上で新たな最先端結果を達成する。
論文参考訳（メタデータ） (2023-08-24T16:16:10Z)
Weakly Supervised 3D Point Cloud Segmentation via Multi-Prototype Learning [37.76664203157892]
ここでの根本的な課題は、局所幾何学構造の大きなクラス内変異であり、結果として意味クラス内のサブクラスとなる。この直感を活用し、各サブクラスの個別分類器を維持することを選択します。我々の仮説はまた、追加アノテーションのコストを伴わずにセマンティックサブクラスの一貫した発見を前提に検証されている。
論文参考訳（メタデータ） (2022-05-06T11:07:36Z)
Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文参考訳（メタデータ） (2022-02-04T07:19:09Z)
TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文参考訳（メタデータ） (2021-12-02T18:59:03Z)
Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文参考訳（メタデータ） (2020-07-13T11:03:09Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。