Fugu-MT 論文翻訳(概要): EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation

論文の概要: EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation

arxiv url: http://arxiv.org/abs/2505.14014v1
Date: Tue, 20 May 2025 07:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.84788
Title: EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation
Title（参考訳）: EGFormer: 効率的で一般化可能なマルチモーダルセマンティックセマンティックセマンティックセマンティックセグメンテーションを目指して
Authors: Zelin Zhang, Tao Zhang, KediLI, Xu Zheng,
Abstract要約: EGFormerは効率的なマルチモーダルセマンティックセグメンテーションフレームワークである。任意の数のモダリティを柔軟に統合し、モデルパラメータと推論時間を著しく削減する。最大88%のパラメータが減少し、50%のGFLOPが削減される。
参考スコア（独自算出の注目度）: 6.314084134346798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent efforts have explored multimodal semantic segmentation using various backbone architectures. However, while most methods aim to improve accuracy, their computational efficiency remains underexplored. To address this, we propose EGFormer, an efficient multimodal semantic segmentation framework that flexibly integrates an arbitrary number of modalities while significantly reducing model parameters and inference time without sacrificing performance. Our framework introduces two novel modules. First, the Any-modal Scoring Module (ASM) assigns importance scores to each modality independently, enabling dynamic ranking based on their feature maps. Second, the Modal Dropping Module (MDM) filters out less informative modalities at each stage, selectively preserving and aggregating only the most valuable features. This design allows the model to leverage useful information from all available modalities while discarding redundancy, thus ensuring high segmentation quality. In addition to efficiency, we evaluate EGFormer on a synthetic-to-real transfer task to demonstrate its generalizability. Extensive experiments show that EGFormer achieves competitive performance with up to 88 percent reduction in parameters and 50 percent fewer GFLOPs. Under unsupervised domain adaptation settings, it further achieves state-of-the-art transfer performance compared to existing methods.
Abstract（参考訳）: 近年,様々なバックボーンアーキテクチャを用いたマルチモーダルセマンティックセマンティックセマンティクスの研究が進められている。しかし、ほとんどの手法は精度の向上を目的としているものの、その計算効率は未検討のままである。そこで本研究では,モデルパラメータや推論時間を大幅に削減しつつ,任意のモダリティを柔軟に統合する,効率的なマルチモーダルセマンティックセマンティックセマンティクスフレームワークEGFormerを提案する。私たちのフレームワークは2つの新しいモジュールを導入します。まず、ASM(Any-modal Scoring Module)は、各モダリティに個別に重要なスコアを割り当て、特徴マップに基づいた動的なランキングを可能にする。第二に、Modal Dropping Module (MDM) は各ステージにおいてより少ない情報モダリティをフィルタリングし、最も価値のある機能のみを選択的に保存し集約する。この設計により、モデルは、冗長性を捨てながら利用可能なすべてのモダリティから有用な情報を活用することができ、高いセグメンテーション品質を確保することができる。効率性に加えて, EGFormerを合成-実間転送タスクで評価し, その一般化性を示す。大規模な実験では、EGFormerは最大88%のパラメータを削減し、50%のGFLOPで競争性能を達成している。教師なしのドメイン適応設定では、既存のメソッドと比較して最先端の転送性能がさらに向上する。

関連論文リスト

Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。 4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2025-11-09T11:13:32Z)
Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文参考訳（メタデータ） (2025-08-07T02:51:10Z)
BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-04T08:04:58Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文参考訳（メタデータ） (2024-12-22T06:12:03Z)
Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。 SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文参考訳（メタデータ） (2024-12-05T14:54:31Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
Layer-wise Model Merging for Unsupervised Domain Adaptation in Segmentation Tasks [3.776249047528669]
フリーでトレーニングされたモデルの豊富さを活用して、モデルマージにコストフリーのアプローチを導入します。初期レイヤを統一しながら、タスク固有の最終レイヤの特異性を維持することを目的としている。このアプローチは、パフォーマンスを高めるために不可欠な、すべてのレイヤにおけるパラメータの一貫性を保証する。
論文参考訳（メタデータ） (2024-09-24T07:19:30Z)
Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-16T03:19:59Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文参考訳（メタデータ） (2022-07-13T14:41:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。