論文の概要: Rethinking Multimodal Few-Shot 3D Point Cloud Segmentation: From Fused Refinement to Decoupled Arbitration
- arxiv url: http://arxiv.org/abs/2601.01456v1
- Date: Sun, 04 Jan 2026 09:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.363146
- Title: Rethinking Multimodal Few-Shot 3D Point Cloud Segmentation: From Fused Refinement to Decoupled Arbitration
- Title(参考訳): マルチモーダルFew-Shot 3Dポイント・クラウド・セグメンテーションの再考:フューズド・リファインメントからデカップリング・アロケーションへ
- Authors: Wentao Bian, Fenglei Xu,
- Abstract要約: Decoupled-experts Arbitration Few-Shot SegNet (DA-FSS)を提案する。
DA-FSSは意味的経路と幾何学的経路を区別し、それらの勾配を相互に規則化し、より良い一般化を実現する。
また,各モータリティ経路に対して畳み込み融合と調停相関を行うために,SAM(Stacked Arbitration Module)を提案する。
- 参考スコア(独自算出の注目度): 1.1678822620192437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we revisit multimodal few-shot 3D point cloud semantic segmentation (FS-PCS), identifying a conflict in "Fuse-then-Refine" paradigms: the "Plasticity-Stability Dilemma." In addition, CLIP's inter-class confusion can result in semantic blindness. To address these issues, we present the Decoupled-experts Arbitration Few-Shot SegNet (DA-FSS), a model that effectively distinguishes between semantic and geometric paths and mutually regularizes their gradients to achieve better generalization. DA-FSS employs the same backbone and pre-trained text encoder as MM-FSS to generate text embeddings, which can increase free modalities' utilization rate and better leverage each modality's information space. To achieve this, we propose a Parallel Expert Refinement module to generate each modal correlation. We also propose a Stacked Arbitration Module (SAM) to perform convolutional fusion and arbitrate correlations for each modality pathway. The Parallel Experts decouple two paths: a Geometric Expert maintains plasticity, and a Semantic Expert ensures stability. They are coordinated via a Decoupled Alignment Module (DAM) that transfers knowledge without propagating confusion. Experiments on popular datasets (S3DIS, ScanNet) demonstrate the superiority of DA-FSS over MM-FSS. Meanwhile, geometric boundaries, completeness, and texture differentiation are all superior to the baseline. The code is available at: https://github.com/MoWenQAQ/DA-FSS.
- Abstract(参考訳): 本稿では,Fuse-then-Refineのパラダイムである"Plasticity-Stability Dilemma"における競合を同定し,マルチモーダルな小ショット3Dポイントクラウドセマンティックセマンティックセマンティックセマンティックセグメンテーション(FS-PCS)を再検討する。
さらに、CLIPのクラス間の混乱はセマンティック・ブラインドに繋がる可能性がある。
これらの問題に対処するために,意味的パスと幾何学的パスを効果的に区別し,それらの勾配を相互に規則化し,より優れた一般化を実現するモデルであるDecoupled-experts Arbitration Few-FSS SegNet(DA-FSS)を提案する。
DA-FSSはMM-FSSと同じバックボーンと事前訓練されたテキストエンコーダを用いてテキスト埋め込みを生成する。
これを実現するために,各モーダル相関を生成する並列エキスパートリファインメントモジュールを提案する。
また,各モータリティ経路に対して畳み込み融合と調停相関を行うために,SAM(Stacked Arbitration Module)を提案する。
幾何専門家は可塑性を維持し、セマンティック専門家は安定性を確保する。
それらはDAM(Decoupled Alignment Module)を介して調整され、混乱を伝播することなく知識を伝達する。
一般的なデータセット(S3DIS、ScanNet)の実験では、MM-FSSよりもDA-FSSの方が優れていることが示されている。
一方、幾何学的境界、完全性、テクスチャの区別は基本線よりも優れている。
コードは、https://github.com/MoWenQAQ/DA-FSS.comで入手できる。
関連論文リスト
- SupScene: Learning Overlap-Aware Global Descriptor for Unconstrained SfM [10.006619357851843]
SupSceneは、Structure-from-Motion(SfM)に類似した幾何学的性質の重なり合う画像対を見つけるのに適した、グローバルな記述子を学習する新しいソリューションである。
提案手法は,NetVLADを著しく上回りながら,トレーニング可能なパラメータを無数に導入し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-01-17T06:28:47Z) - DashFusion: Dual-stream Alignment with Hierarchical Bottleneck Fusion for Multimodal Sentiment Analysis [33.787241290130574]
マルチモーダル感情分析(MSA)は、テキスト、画像、音声などの様々なモダリティを統合し、より包括的な感情理解を提供する。
本稿では,階層型ボトルネック核融合(DashFusion)を用いたデュアルストリームアライメント(Dual-stream Alignment)という新しいフレームワークを提案する。
DashFusionは様々な測定値で最先端のパフォーマンスを実現し、アブレーション研究によりアライメントと融合技術の有効性が確認された。
論文 参考訳(メタデータ) (2025-12-05T08:18:57Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Sequential Federated Learning in Hierarchical Architecture on Non-IID Datasets [25.010661914466354]
実連合学習(FL)システムでは、クライアントとパラメータ(PS)の間でモデルパラメータを渡す際の通信オーバーヘッドがボトルネックとなることが多い。
そこで本研究では,SFL(Sequence FL) HFLを初めて提案し,各サーバに隣接する2つのES間でデータを渡すことで,中央PSを除去し,モデルを完成させることを可能にする。
論文 参考訳(メタデータ) (2024-08-19T07:43:35Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Multi-Stage Hybrid Federated Learning over Large-Scale D2D-Enabled Fog
Networks [61.30171206892684]
ネットワークを多層クラスタベース構造とみなす階層内モデル学習と層間モデル学習のハイブリッドを開発する。
MH-FLは、デバイス間通信(D2D)を介して形成されたローカルネットワークを含む、クラスタ内のノード間のトポロジー構造を考察している。
異なるネットワーク層におけるデバイスを協調的/協調的にオーケストレーションし、モデルパラメータの局所的なコンセンサスを形成する。
論文 参考訳(メタデータ) (2020-07-18T20:03:07Z) - Fractional Skipping: Towards Finer-Grained Dynamic CNN Inference [82.96877371742532]
本研究では,ディープネットワークのための動的フラクタル・スキッピング(DFS)フレームワークを提案する。
DFSは層ワイド量子化(ビット幅の異なるもの)を、層を完全に活用してスキップする中間的な「ソフト」な選択として仮定する。
入力適応推論中の層の表現力を利用して、よりきめ細かい精度計算コストのトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-01-03T03:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。