論文の概要: Multi-Modal Prototypes for Open-Set Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.02003v2
- Date: Tue, 9 Jul 2024 04:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:31:04.083261
- Title: Multi-Modal Prototypes for Open-Set Semantic Segmentation
- Title(参考訳): オープンセットセマンティックセマンティックセグメンテーションのためのマルチモーダルプロトタイプ
- Authors: Yuhuan Yang, Chaofan Ma, Chen Ju, Ya Zhang, Yanfeng Wang,
- Abstract要約: 我々は、視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした、オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。
パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。
最先端の結果は、より詳細な部分分割であるPascal-Animalsでも、粗い粒度のデータセットのみをトレーニングすることで達成される。
- 参考スコア(独自算出の注目度): 31.871174635364316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In semantic segmentation, adapting a visual system to novel object categories at inference time has always been both valuable and challenging. To enable such generalization, existing methods rely on either providing several support examples as visual cues or class names as textual cues. Through the development is relatively optimistic, these two lines have been studied in isolation, neglecting the complementary intrinsic of low-level visual and high-level language information. In this paper, we define a unified setting termed as open-set semantic segmentation (O3S), which aims to learn seen and unseen semantics from both visual examples and textual names. Our pipeline extracts multi-modal prototypes for segmentation task, by first single modal self-enhancement and aggregation, then multi-modal complementary fusion. To be specific, we aggregate visual features into several tokens as visual prototypes, and enhance the class name with detailed descriptions for textual prototype generation. The two modalities are then fused to generate multi-modal prototypes for final segmentation. On both \pascal and \coco datasets, we conduct extensive experiments to evaluate the framework effectiveness. State-of-the-art results are achieved even on more detailed part-segmentation, Pascal-Animals, by only training on coarse-grained datasets. Thorough ablation studies are performed to dissect each component, both quantitatively and qualitatively.
- Abstract(参考訳): セマンティックセグメンテーションにおいて、推論時に新しいオブジェクトカテゴリに視覚システムを適用することは、常に有用かつ困難である。
このような一般化を可能にするために、既存のメソッドは、ビジュアルキューのようないくつかのサポート例を提供するか、テキストキューとしてクラス名を提供するかに依存している。
開発は比較的楽観的であり、これらの2つの線は、低レベル視覚および高レベル言語情報の相補的な内在性を無視して、独立して研究されてきた。
本稿では,視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした,オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。
パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。
具体的には、視覚的特徴を視覚的プロトタイプとしていくつかのトークンに集約し、テキストプロトタイプ生成の詳細な記述でクラス名を強化する。
2つのモダリティは融合され、最終セグメンテーションのためのマルチモーダルプロトタイプを生成する。
そこで我々は,<pascal>と<coco>の2つのデータセットを用いて,フレームワークの有効性を評価する。
最先端の結果は、より詳細な部分分割であるPascal-Animalsでも、粗い粒度のデータセットのみをトレーニングすることで達成される。
定量的にも質的にも、各成分を分離するために、徹底的なアブレーション研究が実施されている。
関連論文リスト
- One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。
本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-07-25T04:12:50Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition [40.329190454146996]
MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。
我々は4つの一般的な数発のアクション認識データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-09T14:24:39Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。