論文の概要: A Semantic Space is Worth 256 Language Descriptions: Make Stronger
Segmentation Models with Descriptive Properties
- arxiv url: http://arxiv.org/abs/2312.13764v1
- Date: Thu, 21 Dec 2023 11:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:22:07.502028
- Title: A Semantic Space is Worth 256 Language Descriptions: Make Stronger
Segmentation Models with Descriptive Properties
- Title(参考訳): セマンティック空間は256の言語記述に価値がある:記述特性を持つより強いセグメンテーションモデルを作る
- Authors: Junfei Xiao, Ziqi Zhou, Wenxuan Li, Shiyi Lan, Jieru Mei, Zhiding Yu,
Alan Yuille, Yuyin Zhou, Cihang Xie
- Abstract要約: ProLabは、プロパティレベルのラベル空間を使用して、強力な解釈可能なセグメンテーションモデルを作成する新しいアプローチである。
セグメンテーションモデルを監督するために、常識知識に根ざした記述的特性を使用する。
- 参考スコア(独自算出の注目度): 55.17733971660755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces ProLab, a novel approach using property-level label
space for creating strong interpretable segmentation models. Instead of relying
solely on category-specific annotations, ProLab uses descriptive properties
grounded in common sense knowledge for supervising segmentation models. It is
based on two core designs. First, we employ Large Language Models (LLMs) and
carefully crafted prompts to generate descriptions of all involved categories
that carry meaningful common sense knowledge and follow a structured format.
Second, we introduce a description embedding model preserving semantic
correlation across descriptions and then cluster them into a set of descriptive
properties (e.g., 256) using K-Means. These properties are based on
interpretable common sense knowledge consistent with theories of human
recognition. We empirically show that our approach makes segmentation models
perform stronger on five classic benchmarks (e.g., ADE20K, COCO-Stuff, Pascal
Context, Cityscapes, and BDD). Our method also shows better scalability with
extended training steps than category-level supervision. Our interpretable
segmentation framework also emerges with the generalization ability to segment
out-of-domain or unknown categories using only in-domain descriptive
properties. Code is available at https://github.com/lambert-x/ProLab.
- Abstract(参考訳): 本稿では,プロパティレベルラベル空間を用いた強力な解釈可能なセグメンテーションモデル作成手法であるProLabを紹介する。
ProLabは、カテゴリ固有のアノテーションのみに頼る代わりに、セグメンテーションモデルを監督するために、常識知識に基づく記述プロパティを使用する。
2つのコアデザインに基づいている。
まず、Large Language Models(LLM)を用いて、意味のある常識知識を持ち、構造化されたフォーマットに従うすべての関連カテゴリの記述を慎重に作成する。
第2に、記述間の意味的相関を保存する記述埋め込みモデルを導入し、K-Meansを用いて記述的特性(例えば256)にクラスタ化する。
これらの特性は、人間の認識理論と一致する解釈可能な常識知識に基づいている。
当社のアプローチは,従来の5つのベンチマーク(ADE20K,COCO-Stuff,Pascal Context,Cityscapes,BDDなど)において,セグメンテーションモデルをより強力なパフォーマンスにします。
また,本手法は,カテゴリレベルの監視よりも拡張トレーニングステップによるスケーラビリティも向上する。
我々の解釈可能なセグメンテーションフレームワークは、ドメイン内記述プロパティのみを使用して、ドメイン外または未知のカテゴリをセグメンテーションする一般化能力を持つ。
コードはhttps://github.com/lambert-x/ProLab.comで入手できる。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文 参考訳(メタデータ) (2024-03-31T14:37:25Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - SAMBA: A Trainable Segmentation Web-App with Smart Labelling [0.0]
SAMBAは、高速で高品質なラベル提案にMetaのSegment Anything Model(SAM)を使用するトレーニング可能なセグメンテーションツールである。
セグメンテーションバックエンドはクラウドで動作するため、ユーザは強力なハードウェアを必要としない。
論文 参考訳(メタデータ) (2023-12-07T10:31:05Z) - AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - ISIM: Iterative Self-Improved Model for Weakly Supervised Segmentation [0.34265828682659694]
Weakly Supervised Semantic Conditional (WSSS)は,クラスレベルのラベルからセグメンテーションラベルを学習するための課題である。
修正エンコーダデコーダに基づくセグメンテーションモデルにおいて,反復的アプローチを用いたフレームワークを提案する。
DeepLabv3とUNetモデルで実施された実験では、Pascal VOC12データセットが大幅に向上している。
論文 参考訳(メタデータ) (2022-11-22T18:14:06Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。