論文の概要: Multi-Modal Prototypes for Open-Set Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.02003v1
- Date: Wed, 5 Jul 2023 03:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:12:34.714250
- Title: Multi-Modal Prototypes for Open-Set Semantic Segmentation
- Title(参考訳): オープンセット意味セグメンテーションのためのマルチモーダルプロトタイプ
- Authors: Yuhuan Yang, Chaofan Ma, Chen Ju, Ya Zhang, Yanfeng Wang
- Abstract要約: 我々は、視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした、オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。
パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。
最先端の結果は、より詳細な部分分割であるPascal-Animalsでも、粗い粒度のデータセットのみをトレーニングすることで達成される。
- 参考スコア(独自算出の注目度): 21.516828192775634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In semantic segmentation, adapting a visual system to novel object categories
at inference time has always been both valuable and challenging. To enable such
generalization, existing methods rely on either providing several support
examples as visual cues or class names as textual cues. Through the development
is relatively optimistic, these two lines have been studied in isolation,
neglecting the complementary intrinsic of low-level visual and high-level
language information. In this paper, we define a unified setting termed as
open-set semantic segmentation (O3S), which aims to learn seen and unseen
semantics from both visual examples and textual names. Our pipeline extracts
multi-modal prototypes for segmentation task, by first single modal
self-enhancement and aggregation, then multi-modal complementary fusion. To be
specific, we aggregate visual features into several tokens as visual
prototypes, and enhance the class name with detailed descriptions for textual
prototype generation. The two modalities are then fused to generate multi-modal
prototypes for final segmentation. On both \pascal and \coco datasets, we
conduct extensive experiments to evaluate the framework effectiveness.
State-of-the-art results are achieved even on more detailed part-segmentation,
Pascal-Animals, by only training on coarse-grained datasets. Thorough ablation
studies are performed to dissect each component, both quantitatively and
qualitatively.
- Abstract(参考訳): セマンティックセグメンテーションにおいて、推論時に新しいオブジェクトカテゴリに視覚システムを適用することは、常に有用かつ困難である。
このような一般化を可能にするために、既存のメソッドは、ビジュアルキューのようないくつかのサポート例を提供するか、テキストキューとしてクラス名を提供するかに依存している。
開発は比較的楽観的であり、これらの2つの線は分離して研究されており、低レベルの視覚および高レベルの言語情報の補完的な本質を無視している。
本稿では,視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした,オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。
パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。
具体的には、視覚的特徴を視覚的プロトタイプとしていくつかのトークンに集約し、テキストプロトタイプ生成の詳細な記述でクラス名を強化する。
2つのモダリティは融合され、最終セグメンテーションのためのマルチモーダルプロトタイプを生成する。
\pascalデータセットと \cocoデータセットの両方で、フレームワークの有効性を評価するために広範囲な実験を行いました。
最先端の結果は、粗粒データセットのトレーニングのみによって、より詳細なpart-segmentation、pascal-animalsでも達成される。
各成分を定量的・定性的に分析するために徹底的なアブレーション研究を行う。
関連論文リスト
- AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute
Decomposition-Aggregation [33.25304533086283]
オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。
最近の研究では、この課題に対処するために視覚言語による事前訓練が検討されているが、現実的なシナリオでは非現実的な仮定に悩まされている。
本研究は,新しい概念を理解する上で,人間の認知に触発された新しい属性分解集約フレームワークであるAttrSegを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:34:09Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。