論文の概要: STARS: Shared-specific Translation and Alignment for missing-modality Remote Sensing Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2601.17342v1
- Date: Sat, 24 Jan 2026 07:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.608177
- Title: STARS: Shared-specific Translation and Alignment for missing-modality Remote Sensing Semantic Segmentation
- Title(参考訳): STARS: モダリティを欠いたリモートセンシングセマンティックセマンティックセマンティックセマンティックセグメンテーションのための共有固有翻訳とアライメント
- Authors: Tong Wang, Xiaodong Zhang, Guanzhou Chen, Jiaqi Wang, Chenxi Liu, Xiaoliang Tan, Wenchao Guo, Xuyang Li, Xuanrui Wang, Zifan Wang,
- Abstract要約: 我々は、不完全なマルチモーダル入力のための堅牢なセマンティックセマンティックセグメンテーションフレームワークであるtextbfSTARS (textbfShared-specific textbfTranslation and textbfAlignment for missing-modality textbfRemote textbfSensing) を提案する。
- 参考スコア(独自算出の注目度): 17.072133247113857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal remote sensing technology significantly enhances the understanding of surface semantics by integrating heterogeneous data such as optical images, Synthetic Aperture Radar (SAR), and Digital Surface Models (DSM). However, in practical applications, the missing of modality data (e.g., optical or DSM) is a common and severe challenge, which leads to performance decline in traditional multimodal fusion models. Existing methods for addressing missing modalities still face limitations, including feature collapse and overly generalized recovered features. To address these issues, we propose \textbf{STARS} (\textbf{S}hared-specific \textbf{T}ranslation and \textbf{A}lignment for missing-modality \textbf{R}emote \textbf{S}ensing), a robust semantic segmentation framework for incomplete multimodal inputs. STARS is built on two key designs. First, we introduce an asymmetric alignment mechanism with bidirectional translation and stop-gradient, which effectively prevents feature collapse and reduces sensitivity to hyperparameters. Second, we propose a Pixel-level Semantic sampling Alignment (PSA) strategy that combines class-balanced pixel sampling with cross-modality semantic alignment loss, to mitigate alignment failures caused by severe class imbalance and improve minority-class recognition.
- Abstract(参考訳): マルチモーダルリモートセンシング技術は、光学画像、合成開口レーダ(SAR)、DSM(Digital Surface Models)などの異種データを統合することで、表面セマンティクスの理解を著しく向上させる。
しかし、実際的な応用では、モダリティデータの欠如(例えば、光学またはDSM)は一般的で深刻な問題であり、従来のマルチモーダル融合モデルの性能低下につながっている。
欠落したモダリティに対処する既存の方法は、機能崩壊や過剰に一般化された機能を含む制限に直面している。
これらの問題に対処するため、不完全なマルチモーダル入力のためのロバストなセマンティックセマンティックセマンティックセグメンテーションフレームワークである \textbf{STARS} (\textbf{S}hared-specific \textbf{T}ranslation and \textbf{A}lignment for missing-modality \textbf{R}emote \textbf{S}ensing)を提案する。
STARSは2つの重要な設計に基づいている。
まず,2方向変換と停止段階の非対称アライメント機構を導入し,特徴の崩壊を効果的に防止し,過度パラメータに対する感度を低下させる。
第2に,重度のクラス不均衡に起因するアライメント障害を軽減し,マイノリティーなクラス認識を改善するために,クラスバランスのピクセルサンプリングとクロスモーダルなセマンティックアライメント損失を組み合わせたピクセルレベルのセマンティックサンプリングアライメント(PSA)戦略を提案する。
関連論文リスト
- Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。
第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文 参考訳(メタデータ) (2025-10-26T05:03:55Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation [28.992992584085787]
マルチモーダル学習は、通常の単調モデルと比較して大きな性能向上を示した。
現実のシナリオでは、センサーの故障と悪天候のためにマルチモーダル信号が欠落する可能性がある。
本稿では,これらの制約に対処するために,GEMMNet(Generative-Enhanced MultiModal Learning Network)を提案する。
論文 参考訳(メタデータ) (2025-09-14T05:40:35Z) - Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。
DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。
MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文 参考訳(メタデータ) (2025-08-28T04:31:48Z) - DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing [58.62312400472865]
マルチモーダル・フェイス・アンチ・スプーフィング (FAS) が顕著な研究対象となっている。
相互情報に基づくモダリティ間のアライメントモジュールを提案する。
サブドメイン超平面とモダリティ角マージンの両方を整列する双対アライメント最適化法を用いる。
論文 参考訳(メタデータ) (2025-03-01T10:12:00Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。