論文の概要: MM-OVSeg:Multimodal Optical-SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing
- arxiv url: http://arxiv.org/abs/2603.17528v1
- Date: Wed, 18 Mar 2026 09:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.606817
- Title: MM-OVSeg:Multimodal Optical-SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing
- Title(参考訳): MM-OVSeg:Multimodal Optical-SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing
- Authors: Yimin Wei, Aoran Xiao, Hongruixuan Chen, Junshi Xia, Naoto Yokoya,
- Abstract要約: 気象条件下での弾力性開語彙セグメンテーションのための多モード光-SAR融合フレームワークMM-OVSegを提案する。
現在の視覚言語モデルのクロスモーダル領域ギャップと限定的な密度予測能力に対処するために,2つの重要な設計手法を提案する。
- 参考スコア(独自算出の注目度): 25.960945037991234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-vocabulary segmentation enables pixel-level recognition from an open set of textual categories, allowing generalization beyond fixed classes. Despite great potential in remote sensing, progress in this area remains largely limited to clear-sky optical data and struggles under cloudy or haze-contaminated conditions. We present MM-OVSeg, a multimodal Optical-SAR fusion framework for resilient open-vocabulary segmentation under adverse weather conditions. MM-OVSeg leverages the complementary strengths of the two modalities--optical imagery provides rich spectral semantics, while synthetic aperture radar (SAR) offers cloud-penetrating structural cues. To address the cross-modal domain gap and the limited dense prediction capability of current vision-language models, we propose two key designs: a cross-modal unification process for multi-sensor representation alignment, and a dual-encoder fusion module that integrates hierarchical features from multiple vision foundation models for text-aligned multimodal segmentation. Extensive experiments demonstrate that MM-OVSeg achieves superior robustness and generalization across diverse cloud conditions. The source dataset and code are available here.
- Abstract(参考訳): オープンボキャブラリセグメンテーションは、テキストカテゴリのオープンセットからピクセルレベルの認識を可能にし、固定クラスを超えた一般化を可能にする。
リモートセンシングの大きな可能性にもかかわらず、この領域の進歩は明快な光学データと、曇りやヘイズ汚染条件下での闘争に大きく制限されている。
気象条件下での弾力性開語彙セグメンテーションのための多モード光-SAR融合フレームワークMM-OVSegを提案する。
MM-OVSegは2つのモードの相補的な強度を活用し、光学画像はリッチなスペクトルセマンティクスを提供する一方、合成開口レーダ(SAR)は雲を貫通する構造的手がかりを提供する。
現在の視覚言語モデルのクロスモーダル領域ギャップと限定的な密度予測能力に対処するため、マルチセンサの表現アライメントのためのクロスモーダル統一プロセスと、テキストアラインなマルチモーダルセグメンテーションのための複数の視覚基盤モデルから階層的特徴を統合するデュアルエンコーダ融合モジュールという2つの重要な設計を提案する。
大規模な実験により、MM-OVSegは様々な雲の条件にまたがる優れた堅牢性と一般化を実現することが示された。
ソースコードとソースコードはここにある。
関連論文リスト
- VTFusion: A Vision-Text Multimodal Fusion Network for Few-Shot Anomaly Detection [24.88767599022225]
Few-Shot Anomaly Detection (FSAD) は、希少な正規参照を用いて不規則を識別するための重要なパラダイムとして登場した。
本研究では,FSADに適した視覚テキスト多モード融合フレームワークであるVTFusionを提案する。
論文 参考訳(メタデータ) (2026-01-23T00:30:24Z) - REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion [11.138412313646995]
本稿では,統合潜在拡散フレームワークREGLUEを紹介する。
軽量な畳み込み意味論は、多層VFM特徴を低次元空間構造表現に集約する。
ImageNet 256x256では、REGLUEは一貫して、REPA、ReDi、REGと同様に、SiT-B/2およびSiT-XL/2ベースラインのFIDと収束を改善している。
論文 参考訳(メタデータ) (2025-12-18T15:10:42Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation [74.55725909072903]
我々はOmniSegmentorと呼ばれる新しいマルチモーダル学習フレームワークを提案する。
ImageNetに基づいて、ImageNeXtと呼ばれるマルチモーダル事前学習のための大規模なデータセットを組み立てる。
様々なシナリオにまたがってモデルの知覚能力を一貫して増幅する、普遍的なマルチモーダル事前学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-09-18T15:52:44Z) - Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling [50.8215545241128]
私たちはaを提案します。
境界モデリングネットワーク(HBMNet)には、オーディオ・ビジュアル・フィーチャー(Audio-Visual Feature)という3つのモジュールが含まれている。
粗提案発電機と微細階層確率発生装置
モダリティの観点からは、フレームレベルの監督によって強化されたオーディオ・ビジュアル・エンコーディングと融合を強化する。
実験により、符号化と融合が主に精度を向上し、フレームレベルの監視リコールが可能であることが示された。
論文 参考訳(メタデータ) (2025-08-04T02:41:09Z) - DOFA-CLIP: Multimodal Vision-Language Foundation Models for Earth Observation [27.878058177228727]
本稿では,1つのトランスフォーマーバックボーンを通じてフレキシブルなスペクトル構成でEOモダリティに適応する視覚言語基盤モデルであるDOFA-CLIPを提案する。
提案手法では, 大規模EO画像テキストデータセットであるGeoLangBind-2Mの構築, マルチビジョン基盤モデルによるCLIP特徴の空間的認識を高める VECT と呼ばれる新しいトレーニング戦略, モータリティを意識した知識集約(MaKA)モジュールの構築を行った。
論文 参考訳(メタデータ) (2025-03-08T19:10:04Z) - Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment [16.733970553781887]
最近の知見は、よく訓練された単調エンコーダのセマンティックな類似性が高いことを示唆している。
凍結したユニモーダルエンコーダを用いて視覚と言語を協調する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。