論文の概要: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation
- arxiv url: http://arxiv.org/abs/2309.00096v1
- Date: Thu, 31 Aug 2023 19:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 15:20:41.927358
- Title: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation
- Title(参考訳): 属性分解・集約による開語彙意味セグメンテーション
- Authors: Chaofan Ma, Yuhuan Yang, Chen Ju, Fei Zhang, Ya Zhang, Yanfeng Wang
- Abstract要約: オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
近年の研究では、この課題に対処するために視覚言語による事前学習が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された,新しい分解集約フレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.25304533086283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation is a challenging task that requires
segmenting novel object categories at inference time. Recent works explore
vision-language pre-training to handle this task, but suffer from unrealistic
assumptions in practical scenarios, i.e., low-quality textual category names.
For example, this paradigm assumes that new textual categories will be
accurately and completely provided, and exist in lexicons during pre-training.
However, exceptions often happen when meet with ambiguity for brief or
incomplete names, new words that are not present in the pre-trained lexicons,
and difficult-to-describe categories for users. To address these issues, this
work proposes a novel decomposition-aggregation framework, inspired by human
cognition in understanding new concepts. Specifically, in the decomposition
stage, we decouple class names into diverse attribute descriptions to enrich
semantic contexts. Two attribute construction strategies are designed: using
large language models for common categories, and involving manually labelling
for human-invented categories. In the aggregation stage, we group diverse
attributes into an integrated global description, to form a discriminative
classifier that distinguishes the target object from others. One hierarchical
aggregation is further designed to achieve multi-level alignment and deep
fusion between vision and text. The final result is obtained by computing the
embedding similarity between aggregated attributes and images. To evaluate the
effectiveness, we annotate three datasets with attribute descriptions, and
conduct extensive experiments and ablation studies. The results show the
superior performance of attribute decomposition-aggregation.
- Abstract(参考訳): オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究は、このタスクを扱うための視覚言語事前学習を探求しているが、実用的なシナリオ、すなわち低品質のテキストカテゴリ名において非現実的な仮定に苦しめられている。
例えば、このパラダイムは、新しいテキストカテゴリが正確かつ完全に提供され、事前学習中にレキシコンに存在すると仮定する。
しかし、短い名前や不完全な名前のあいまいさ、事前訓練された語彙に存在しない新しい単語、ユーザにとって難しいカテゴリーで例外が発生することが多い。
これらの問題に対処するため,本研究では,新しい概念理解における人間の認知に触発された,新しい分解集約フレームワークを提案する。
具体的には、分解段階では、クラス名を様々な属性記述に分離し、セマンティックコンテキストを豊かにする。
2つの属性構築戦略が設計されており、共通のカテゴリに大規模言語モデルを使用し、人間が発明したカテゴリに手動でラベル付けする。
集約段階において,多様な属性を統合的なグローバル記述にグループ化し,対象対象を他の対象と区別する識別的分類器を形成する。
ひとつの階層的なアグリゲーションは、視覚とテキストのマルチレベルアライメントと深い融合を実現するためにさらに設計されている。
最終的な結果は、集約属性と画像の埋め込み類似性を計算することによって得られる。
有効性を評価するため,属性記述を伴う3つのデータセットをアノテートし,広範な実験とアブレーション実験を行った。
その結果,属性分解凝集の優れた性能を示した。
関連論文リスト
- Label-Guided Prompt for Multi-label Few-shot Aspect Category Detection [12.094529796168384]
文やカテゴリの表現は、このタスクにおいて重要な問題である。
文やカテゴリを表現するためのラベル誘導プロンプト手法を提案する。
マクロF1スコアは3.86%~4.75%向上した。
論文 参考訳(メタデータ) (2024-07-30T09:11:17Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - APANet: Adaptive Prototypes Alignment Network for Few-Shot Semantic
Segmentation [56.387647750094466]
Few-shotのセマンティックセマンティックセマンティクスは、指定されたクエリイメージに、ラベル付きサポートイメージのみで、新規クラスのオブジェクトをセグメントすることを目的としている。
ほとんどの高度なソリューションは、各クエリ機能を学習したクラス固有のプロトタイプにマッチさせることでセグメンテーションを実行するメトリクス学習フレームワークを利用している。
本稿では,クラス固有およびクラス非依存のプロトタイプを導入することで,適応型プロトタイプ表現を提案する。
論文 参考訳(メタデータ) (2021-11-24T04:38:37Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z) - Description Based Text Classification with Reinforcement Learning [34.18824470728299]
本稿では,各カテゴリのラベルをカテゴリ記述に関連付ける,テキスト分類のための新しいフレームワークを提案する。
我々は、幅広いテキスト分類タスクにおいて、強いベースラインよりも顕著なパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-08T02:14:28Z) - Don't Judge an Object by Its Context: Learning to Overcome Contextual
Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。
この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文 参考訳(メタデータ) (2020-01-09T18:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。