Fugu-MT 論文翻訳(概要): Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation

論文の概要: Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation

arxiv url: http://arxiv.org/abs/2410.22489v3
Date: Tue, 25 Feb 2025 15:23:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 19:56:49.65165
Title: Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation
Title（参考訳）: マルチモダリティは、3Dポイントのクラウドセマンティックセマンティックセグメンテーションを支援する
Authors: Zhaochong An, Guolei Sun, Yun Liu, Runjia Li, Min Wu, Ming-Ming Cheng, Ender Konukoglu, Serge Belongie,
Abstract要約: FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
参考スコア（独自算出の注目度）: 61.91492500828508
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Few-shot 3D point cloud segmentation (FS-PCS) aims at generalizing models to segment novel categories with minimal annotated support samples. While existing FS-PCS methods have shown promise, they primarily focus on unimodal point cloud inputs, overlooking the potential benefits of leveraging multimodal information. In this paper, we address this gap by introducing a multimodal FS-PCS setup, utilizing textual labels and the potentially available 2D image modality. Under this easy-to-achieve setup, we present the MultiModal Few-Shot SegNet (MM-FSS), a model effectively harnessing complementary information from multiple modalities. MM-FSS employs a shared backbone with two heads to extract intermodal and unimodal visual features, and a pretrained text encoder to generate text embeddings. To fully exploit the multimodal information, we propose a Multimodal Correlation Fusion (MCF) module to generate multimodal correlations, and a Multimodal Semantic Fusion (MSF) module to refine the correlations using text-aware semantic guidance. Additionally, we propose a simple yet effective Test-time Adaptive Cross-modal Calibration (TACC) technique to mitigate training bias, further improving generalization. Experimental results on S3DIS and ScanNet datasets demonstrate significant performance improvements achieved by our method. The efficacy of our approach indicates the benefits of leveraging commonly-ignored free modalities for FS-PCS, providing valuable insights for future research. The code is available at https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot
Abstract（参考訳）: FS-PCS (Few-shot 3D point cloud segmentation) は、最小限の注釈付きサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。既存のFS-PCS方式は将来性を示しているが、主にマルチモーダル情報の活用による潜在的な利点を見越して、単調なクラウド入力に焦点を当てている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を導入することで,このギャップに対処する。本稿では,複数のモーダルから補完情報を効果的に活用するMultiModal Few-Shot SegNet(MM-FSS)を提案する。 MM-FSSは2つのヘッドを持つ共有バックボーンを使用して、モーダルとアンモダルの視覚的特徴を抽出し、事前訓練されたテキストエンコーダを使ってテキスト埋め込みを生成する。マルチモーダル情報を完全に活用するために,マルチモーダル相関を生成するマルチモーダル相関融合 (MCF) モジュールと,テキスト・アウェア・セマンティック・ガイダンスを用いて相関を洗練するためのマルチモーダル意味融合 (MSF) モジュールを提案する。さらに、トレーニングバイアスを緩和し、さらに一般化を改善するために、簡易で効果的なテスト時適応型クロスモーダル校正法(TACC)を提案する。 S3DISおよびScanNetデータセットの実験結果から,本手法による性能改善が得られた。提案手法の有効性は,FS-PCSに共通に無視される自由なモダリティを活用する利点を示し,今後の研究に有用な知見を提供する。コードはhttps://github.com/ZhaochongAn/Multimodality-3D-Few-Shotで公開されている。

関連論文リスト

LADLE-MM: Limited Annotation based Detector with Learned Ensembles for Multimodal Misinformation [8.769506450302154]
LADLE-MMはLearred Ensembles for Multimodal missinformationをモデルに用いたマルチモーダル誤報検出装置である。 2つの単項枝と、画像とテキストの表現を強化する第3のマルチモーダル枝で構成されている。バイナリとマルチラベルの分類タスクにおいて、競合的なパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-12-23T11:14:58Z)
OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation [74.55725909072903]
我々はOmniSegmentorと呼ばれる新しいマルチモーダル学習フレームワークを提案する。 ImageNetに基づいて、ImageNeXtと呼ばれるマルチモーダル事前学習のための大規模なデータセットを組み立てる。様々なシナリオにまたがってモデルの知覚能力を一貫して増幅する、普遍的なマルチモーダル事前学習フレームワークを導入する。
論文参考訳（メタデータ） (2025-09-18T15:52:44Z)
MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning [12.821814562210632]
本稿では,マルチモーダルアテンションに基づく正規化フロー(MANGO)アプローチを提案する。マルチモーダルデータのための正規化フローベースモデルを開発するために,新しい非可逆クロスアテンション層を提案する。また,MMCA(Modality-to-Modality Cross-Attention),IMCA(Inter-Modality Cross-Attention),ICA(Learable Inter-Modality Cross-Attention)の3つの新しいクロスアテンション機構を導入する。
論文参考訳（メタデータ） (2025-08-13T18:56:57Z)
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
A Multi-Modal Federated Learning Framework for Remote Sensing Image Classification [2.725507329935916]
本稿では,RS画像分類問題に対する新しいマルチモーダルFLフレームワークを提案する。提案フレームワークは,マルチモーダル融合(MF),特徴白化(FW),相互情報モジュール(MIM)の3つのモジュールから構成される。
論文参考訳（メタデータ） (2025-03-13T11:20:15Z)
Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well [23.460400679372714]
MultiCOSは、セグメンテーション性能を改善するために、多様なデータモダリティを効果的に活用する新しいフレームワークである。 BFSerは、実データと擬似データの両方で既存のマルチモーダルベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-20T11:49:50Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文参考訳（メタデータ） (2024-08-27T13:47:31Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。 LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文参考訳（メタデータ） (2024-04-21T13:29:42Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)
TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。 XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文参考訳（メタデータ） (2022-10-16T08:19:59Z)
AttX: Attentive Cross-Connections for Fusion of Wearable Signals in Emotion Recognition [15.21696076393078]
クロスモーダル注意接続は、ウェアラブルデータからマルチモーダル表現学習のための新しい動的かつ効果的な技術である。我々は、WASAD、SWELL-KW、CASEの3つの公共マルチモーダルウェアラブルデータセットについて広範な実験を行った。提案手法は,最先端の手法よりも優れた,あるいは競争的な性能を示し,ベースラインのユニモーダル法や古典的マルチモーダル法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-06-09T17:18:33Z)
Multi-modal land cover mapping of remote sensing images using pyramid attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。 PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。 GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文参考訳（メタデータ） (2021-11-06T10:01:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。