Fugu-MT 論文翻訳(概要): SegRGB-X: General RGB-X Semantic Segmentation Model

論文の概要: SegRGB-X: General RGB-X Semantic Segmentation Model

arxiv url: http://arxiv.org/abs/2603.28023v1
Date: Mon, 30 Mar 2026 04:32:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.227129
Title: SegRGB-X: General RGB-X Semantic Segmentation Model
Title（参考訳）: SegRGB-X:一般RGB-Xセマンティックセマンティックセグメンテーションモデル
Authors: Jiong Liu, Yingjie Xu, Xingcheng Zhou, Rui Song, Walter Zimmer, Alois Knoll, Hu Cao,
Abstract要約: 複数のモーダルをまたいだセグメンテーションを統一する普遍的な任意のモーダル意味セグメンテーションフレームワークを導入する。提案手法は,(1)LoRAファインチューニングによるモダリティ特異的シーン理解指導を提供するMA-CLIP,(2)細粒度特徴をキャプチャするためのモダリティ整列埋め込み,(3)動的特徴調整のためのドメイン固有リファインメントモジュール(DSRM)の3つの重要なイノベーションを特徴としている。
参考スコア（独自算出の注目度）: 34.601456708420166
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Semantic segmentation across arbitrary sensor modalities faces significant challenges due to diverse sensor characteristics, and the traditional configurations for this task result in redundant development efforts. We address these challenges by introducing a universal arbitrary-modal semantic segmentation framework that unifies segmentation across multiple modalities. Our approach features three key innovations: (1) the Modality-aware CLIP (MA-CLIP), which provides modality-specific scene understanding guidance through LoRA fine-tuning; (2) Modality-aligned Embeddings for capturing fine-grained features; and (3) the Domain-specific Refinement Module (DSRM) for dynamic feature adjustment. Evaluated on five diverse datasets with different complementary modalities (event, thermal, depth, polarization, and light field), our model surpasses specialized multi-modal methods and achieves state-of-the-art performance with a mIoU of 65.03%. The codes will be released upon acceptance.
Abstract（参考訳）: 任意のセンサモード間のセマンティックセグメンテーションは、多様なセンサ特性のために重大な課題に直面し、このタスクの伝統的な構成は、冗長な開発作業をもたらす。複数のモーダルをまたいだセグメンテーションを統一する普遍的な任意のモーダルセグメンテーションフレームワークを導入することで、これらの課題に対処する。提案手法は,(1)LoRAファインチューニングによるモダリティ特異的シーン理解指導を提供するMA-CLIP,(2)細粒度特徴をキャプチャするためのモダリティ整列埋め込み,(3)動的特徴調整のためのドメイン固有リファインメントモジュール(DSRM)の3つの重要なイノベーションを特徴としている。異なる相補性(イベント,熱,深度,偏光,光場)を持つ5つの多種多様なデータセットを評価した結果,本モデルは特殊マルチモーダル法を超越し,65.03%のmIoUで最先端の性能を達成した。コードは受理後に公開される。

関連論文リスト

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification [14.549172375231729]
3つの主要コンポーネントからなる新しいマルチモーダル学習フレームワークSTMIを提案する。マルチモーダルReIDシナリオにおけるSTMIフレームワークの有効性とロバスト性を実証する。
論文参考訳（メタデータ） (2026-02-28T15:07:10Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文参考訳（メタデータ） (2024-12-22T06:12:03Z)
Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。 SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文参考訳（メタデータ） (2024-12-05T14:54:31Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。