Fugu-MT 論文翻訳(概要): Multi-Modal Prototypes for Open-Set Semantic Segmentation

論文の概要: Multi-Modal Prototypes for Open-Set Semantic Segmentation

arxiv url: http://arxiv.org/abs/2307.02003v2
Date: Tue, 9 Jul 2024 04:27:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 00:31:04.083261
Title: Multi-Modal Prototypes for Open-Set Semantic Segmentation
Title（参考訳）: オープンセットセマンティックセマンティックセグメンテーションのためのマルチモーダルプロトタイプ
Authors: Yuhuan Yang, Chaofan Ma, Chen Ju, Ya Zhang, Yanfeng Wang,
Abstract要約: 我々は、視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした、オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。最先端の結果は、より詳細な部分分割であるPascal-Animalsでも、粗い粒度のデータセットのみをトレーニングすることで達成される。
参考スコア（独自算出の注目度）: 31.871174635364316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In semantic segmentation, adapting a visual system to novel object categories at inference time has always been both valuable and challenging. To enable such generalization, existing methods rely on either providing several support examples as visual cues or class names as textual cues. Through the development is relatively optimistic, these two lines have been studied in isolation, neglecting the complementary intrinsic of low-level visual and high-level language information. In this paper, we define a unified setting termed as open-set semantic segmentation (O3S), which aims to learn seen and unseen semantics from both visual examples and textual names. Our pipeline extracts multi-modal prototypes for segmentation task, by first single modal self-enhancement and aggregation, then multi-modal complementary fusion. To be specific, we aggregate visual features into several tokens as visual prototypes, and enhance the class name with detailed descriptions for textual prototype generation. The two modalities are then fused to generate multi-modal prototypes for final segmentation. On both \pascal and \coco datasets, we conduct extensive experiments to evaluate the framework effectiveness. State-of-the-art results are achieved even on more detailed part-segmentation, Pascal-Animals, by only training on coarse-grained datasets. Thorough ablation studies are performed to dissect each component, both quantitatively and qualitatively.
Abstract（参考訳）: セマンティックセグメンテーションにおいて、推論時に新しいオブジェクトカテゴリに視覚システムを適用することは、常に有用かつ困難である。このような一般化を可能にするために、既存のメソッドは、ビジュアルキューのようないくつかのサポート例を提供するか、テキストキューとしてクラス名を提供するかに依存している。開発は比較的楽観的であり、これらの2つの線は、低レベル視覚および高レベル言語情報の相補的な内在性を無視して、独立して研究されてきた。本稿では,視覚例とテキスト名の両方から目に見えるセマンティックスを学習することを目的とした,オープンセットセマンティックセマンティックセマンティクス(O3S)と呼ばれる統一的なセマンティクスを定義する。パイプラインは分割タスクのためのマルチモーダルなプロトタイプを抽出し,まず単一モーダルな自己エンハンスメントとアグリゲーションを行い,その後,多モーダルな相補的融合を行う。具体的には、視覚的特徴を視覚的プロトタイプとしていくつかのトークンに集約し、テキストプロトタイプ生成の詳細な記述でクラス名を強化する。 2つのモダリティは融合され、最終セグメンテーションのためのマルチモーダルプロトタイプを生成する。そこで我々は,<pascal>と<coco>の2つのデータセットを用いて,フレームワークの有効性を評価する。最先端の結果は、より詳細な部分分割であるPascal-Animalsでも、粗い粒度のデータセットのみをトレーニングすることで達成される。定量的にも質的にも、各成分を分離するために、徹底的なアブレーション研究が実施されている。

関連論文リスト

KptLLM++: Towards Generic Keypoint Comprehension with Large Language Model [31.59640895434506]
キーポイントは、構造認識、ピクセルレベル、オブジェクトのコンパクトな表現として、きめ細かい画像解析、オブジェクトの検索、行動認識などのアプリケーションにおいて重要な役割を果たす。本稿では,KptLLM++を提案する。KptLLM++は,汎用的なキーポイント理解のために設計された,新しいマルチモーダルな大規模言語モデルである。さまざまなコンテキストにまたがるキーポイント検出を統一することにより、KptLLM++は、より効果的なヒューマンとAIのコラボレーションを促進する、高度なインターフェースとしての地位を確立している。
論文参考訳（メタデータ） (2025-07-15T08:52:28Z)
Dynamic Multimodal Prototype Learning in Vision-Language Models [44.84161970425967]
textbfProtoMMは、テスト期間中に視覚言語モデルに適応するためのマルチモーダルプロトタイプを構築する、トレーニング不要のフレームワークである。プロトタイプをテキスト記述や視覚的粒子の離散分布と見なすことで、ProtoMMは総合的なプロトタイプ学習のためのマルチモーダルな特徴を組み合わせることができる。
論文参考訳（メタデータ） (2025-07-04T15:31:47Z)
Cross-Modal Prototype Allocation: Unsupervised Slide Representation Learning via Patch-Text Contrast in Computational Pathology [10.811667603360041]
ProAlignは、クロスモーダルな教師なしスライド表現学習フレームワークである。スライド画像全体に存在するプロトタイプタイプの記述テキストを生成するために,大規模言語モデル(LLM)を利用する。本稿では、パッチとこれらのプロトタイプの類似性を利用して、教師なしスライド埋め込みを形成するパラメータフリーアテンションアグリゲーション戦略を提案する。
論文参考訳（メタデータ） (2025-03-26T03:31:07Z)
The Multi-Faceted Monosemanticity in Multimodal Representations [42.64636740703632]
我々は、機能単意味性の最近の進歩を活用して、深いマルチモーダルモデルから解釈可能な特徴を抽出する。以上の結果から,この分類は,異なるモダリティの認知的理解と密接に一致していることが明らかとなった。これらの結果は、タスクに依存しない解釈可能性ツールを備えた大規模マルチモーダルモデルが、重要な接続と異なるモダリティの区別に関する貴重な洞察を提供することを示している。
論文参考訳（メタデータ） (2025-02-16T14:51:07Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。 2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文参考訳（メタデータ） (2023-11-29T16:23:06Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文参考訳（メタデータ） (2023-07-04T06:54:01Z)
Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文参考訳（メタデータ） (2023-03-24T16:32:19Z)
Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition [40.329190454146996]
MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。我々は4つの一般的な数発のアクション認識データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-12-09T14:24:39Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文参考訳（メタデータ） (2020-07-13T11:03:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。