Fugu-MT 論文翻訳(概要): Open-Vocabulary Semantic Segmentation Network Integrating Object-Level Label and Scene-Level Semantic Features for Multimodal Remote Sensing Images

論文の概要: Open-Vocabulary Semantic Segmentation Network Integrating Object-Level Label and Scene-Level Semantic Features for Multimodal Remote Sensing Images

arxiv url: http://arxiv.org/abs/2604.24125v1
Date: Mon, 27 Apr 2026 07:23:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.788617
Title: Open-Vocabulary Semantic Segmentation Network Integrating Object-Level Label and Scene-Level Semantic Features for Multimodal Remote Sensing Images
Title（参考訳）: 多モードリモートセンシング画像のためのオブジェクトレベルラベルとシーンレベルセマンティック特徴を統合したオープン語彙セマンティックセマンティックセマンティックセマンティックネットワーク
Authors: Jinkun Dai, Yuanxin Ye, Peng Tang, Tengfeng Tang, Xianping Ma, Jing Xiao, Mi Wang,
Abstract要約: テキスト教師付きマルチモーダルなオープン語彙セマンティックセマンティクスネットワークであるTSMNetを提案する。従来のマルチモーダルセグメンテーションフレームワークとは異なり、TSMNetはシーンレベルのセマンティクスとオブジェクトレベルのラベル情報を抽出するデュアルブランチテキストエンコーダを導入している。その結果、TSMNetは、堅牢な一般化能力を示しながら、より優れたセグメンテーション精度を実現することを示した。
参考スコア（独自算出の注目度）: 29.41047187424905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic segmentation of multi-modal remote sensing imagery plays a pivotal role in land use/land cover (LULC) mapping, environmental monitoring, and precision earth observation. Current multi-modal approaches mainly focus on integrating complementary visual modalities, yet neglect the incorporating of non-visual textual data - a rich source of knowledge that can bridge semantic gaps between visual patterns and real-world concepts. To address this limitation, we propose TSMNet, a text supervised multi-modal open vocabulary semantic segmentation network that synergistically integrates textual supervision with visual representation for open-vocabulary semantic segmentation. Unlike conventional multi-modal segmentation frameworks, TSMNet introduces a dual-branch text encoder to extract both scene-level semantic and object-level label information from various textual data, enabling dynamic cross-modal fusion. These text-derived features dynamically interact with visual embeddings through the proposed text-guided visual semantic fusion module, enabling domain-aware feature refinement and human-interpretable decision-making. To verify our method, we innovatively construct two new multi-modal datasets, and carry out extensive experiments to make a comprehensive comparison between the proposed method and other state-of-the-art (SOTA) semantic segmentation models. Results demonstrate that TSMNet achieves superior segmentation accuracy while exhibiting robust generalization capabilities across diverse geographical and sensor-specific scenarios. This work establishes a new paradigm for explainable remote sensing analysis, demonstrating that textual knowledge integration significantly enhances model generalizability. The source code will be available at https://github.com/yeyuanxin110/TSMNet
Abstract（参考訳）: 多モードリモートセンシング画像のセマンティックセグメンテーションは、土地利用/土地被覆(LULC)マッピング、環境モニタリング、精密地球観測において重要な役割を担っている。現在のマルチモーダルアプローチは主に相補的な視覚的モダリティの統合に重点を置いているが、非視覚的テキストデータの導入は無視されている。この制限に対処するため,TSMNetを提案する。これはマルチモーダルなオープン語彙セマンティックセマンティックセマンティクスネットワークで,テキストの監督とオープン語彙セマンティクスセマンティクスの視覚表現を相乗的に統合する。従来のマルチモーダルセグメンテーションフレームワークとは異なり、TSMNetはシーンレベルのセマンティックおよびオブジェクトレベルのラベル情報を様々なテキストデータから抽出するデュアルブランチテキストエンコーダを導入し、動的クロスモーダル融合を可能にする。これらのテキスト由来の機能は、提案したテキスト誘導ビジュアルセマンティックフュージョンモジュールを介して視覚的な埋め込みと動的に相互作用し、ドメイン認識機能の改良と人間の解釈可能な意思決定を可能にする。提案手法を検証するため、2つの新しいマルチモーダルデータセットを革新的に構築し、提案手法と他のSOTAセマンティックセマンティックセグメンテーションモデルとの包括的比較を行う。以上の結果から,TSMNetは多様な地理的およびセンサ固有のシナリオにまたがる堅牢な一般化能力を示しながら,より優れたセグメンテーション精度を実現することが示された。この研究は、テキスト知識の統合がモデル一般化可能性を大幅に向上させることを示す、説明可能なリモートセンシング分析のための新しいパラダイムを確立する。ソースコードはhttps://github.com/yeyuanxin110/TSMNetで入手できる。

関連論文リスト

Beyond Language: Grounding Referring Expressions with Hand Pointing in Egocentric Vision [13.21187394955871]
EgoPoint-Thoughtは、egocentric deictic visual grounding専用の、最初の大規模なマルチモーダルデータセットである。手動のバウンディングボックスペアや密集したセマンティックキャプションを含む、リッチで多義的なアノテーションを提供する。提案するSV-CoTは,構造的推論プロセスとしてグラウンド化を再構成する新しいベースラインフレームワークである。
論文参考訳（メタデータ） (2026-03-27T17:49:56Z)
MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP [21.89022894877594]
異種リモートセンシングと自然言語のセマンティクスを協調する新しいフレームワークMMLGNetを提案する。 CLIPのトレーニングパラダイムにインスパイアされた我々のアプローチは、高次元リモートセンシングデータと言語誘導解釈のギャップを埋める。
論文参考訳（メタデータ） (2026-01-13T10:44:37Z)
MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。 4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2025-08-03T02:50:08Z)
MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文参考訳（メタデータ） (2023-12-20T03:16:34Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Semantics-Consistent Cross-domain Summarization via Optimal Transport Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文参考訳（メタデータ） (2022-10-10T14:27:10Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)
CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文参考訳（メタデータ） (2021-04-20T07:33:11Z)
Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文参考訳（メタデータ） (2020-10-01T16:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。