論文の概要: Multi-Modal Prototypes for Open-Set Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.02003v1
- Date: Wed, 5 Jul 2023 03:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:12:34.714250
- Title: Multi-Modal Prototypes for Open-Set Semantic Segmentation
- Title(参考訳): オープンセット意味セグメンテーションのためのマルチモーダルプロトタイプ
- Authors: Yuhuan Yang, Chaofan Ma, Chen Ju, Ya Zhang, Yanfeng Wang
- Abstract要約: 我々は、視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした、オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。
パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。
最先端の結果は、より詳細な部分分割であるPascal-Animalsでも、粗い粒度のデータセットのみをトレーニングすることで達成される。
- 参考スコア(独自算出の注目度): 21.516828192775634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In semantic segmentation, adapting a visual system to novel object categories
at inference time has always been both valuable and challenging. To enable such
generalization, existing methods rely on either providing several support
examples as visual cues or class names as textual cues. Through the development
is relatively optimistic, these two lines have been studied in isolation,
neglecting the complementary intrinsic of low-level visual and high-level
language information. In this paper, we define a unified setting termed as
open-set semantic segmentation (O3S), which aims to learn seen and unseen
semantics from both visual examples and textual names. Our pipeline extracts
multi-modal prototypes for segmentation task, by first single modal
self-enhancement and aggregation, then multi-modal complementary fusion. To be
specific, we aggregate visual features into several tokens as visual
prototypes, and enhance the class name with detailed descriptions for textual
prototype generation. The two modalities are then fused to generate multi-modal
prototypes for final segmentation. On both \pascal and \coco datasets, we
conduct extensive experiments to evaluate the framework effectiveness.
State-of-the-art results are achieved even on more detailed part-segmentation,
Pascal-Animals, by only training on coarse-grained datasets. Thorough ablation
studies are performed to dissect each component, both quantitatively and
qualitatively.
- Abstract(参考訳): セマンティックセグメンテーションにおいて、推論時に新しいオブジェクトカテゴリに視覚システムを適用することは、常に有用かつ困難である。
このような一般化を可能にするために、既存のメソッドは、ビジュアルキューのようないくつかのサポート例を提供するか、テキストキューとしてクラス名を提供するかに依存している。
開発は比較的楽観的であり、これらの2つの線は分離して研究されており、低レベルの視覚および高レベルの言語情報の補完的な本質を無視している。
本稿では,視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした,オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。
パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。
具体的には、視覚的特徴を視覚的プロトタイプとしていくつかのトークンに集約し、テキストプロトタイプ生成の詳細な記述でクラス名を強化する。
2つのモダリティは融合され、最終セグメンテーションのためのマルチモーダルプロトタイプを生成する。
\pascalデータセットと \cocoデータセットの両方で、フレームワークの有効性を評価するために広範囲な実験を行いました。
最先端の結果は、粗粒データセットのトレーニングのみによって、より詳細なpart-segmentation、pascal-animalsでも達成される。
各成分を定量的・定性的に分析するために徹底的なアブレーション研究を行う。
関連論文リスト
- Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition [40.329190454146996]
MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。
我々は4つの一般的な数発のアクション認識データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-09T14:24:39Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。