Fugu-MT 論文翻訳(概要): Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

論文の概要: Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

arxiv url: http://arxiv.org/abs/2602.23869v1
Date: Fri, 27 Feb 2026 10:11:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.361777
Title: Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition
Title（参考訳）: 階層型アテンションマスキングとモデル構成によるリモートセンシングにおけるオープンボキャブラリセマンティックセマンティックセグメンテーション
Authors: Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga, Max Mehltretter, Franz Rottensteiner,
Abstract要約: ReSeg-CLIPは、リモートセンシングデータのための新しいトレーニング不要なOpen-Vocabulary Semanticメソッドである。提案手法は,3つのRSベンチマークに対して,追加のトレーニングを伴わずに,最先端の結果を達成している。
参考スコア（独自算出の注目度）: 1.0019706819513459
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose ReSeg-CLIP, a new training-free Open-Vocabulary Semantic Segmentation method for remote sensing data. To compensate for the problems of vision language models, such as CLIP in semantic segmentation caused by inappropriate interactions within the self-attention layers, we introduce a hierarchical scheme utilizing masks generated by SAM to constrain the interactions at multiple scales. We also present a model composition approach that averages the parameters of multiple RS-specific CLIP variants, taking advantage of a new weighting scheme that evaluates representational quality using varying text prompts. Our method achieves state-of-the-art results across three RS benchmarks without additional training.
Abstract（参考訳）: 本稿では,リモートセンシングデータのための新しいトレーニング不要なOpen-Vocabulary Semantic Segmentation法であるReSeg-CLIPを提案する。自己アテンション層内の不適切な相互作用に起因するセグメンテーションにおけるCLIPなどの視覚言語モデルの問題を補うために,SAM が生成したマスクを用いた階層型スキームを導入する。また,複数のRS固有のCLIPのパラメータを平均化するモデル合成手法を提案する。提案手法は,3つのRSベンチマークに対して,追加のトレーニングを伴わずに,最先端の結果を達成している。

関連論文リスト

SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文参考訳（メタデータ） (2025-01-27T13:07:51Z)
Effective SAM Combination for Open-Vocabulary Semantic Segmentation [24.126307031048203]
Open-vocabulary semantic segmentationは、無制限のクラスにわたる画像にピクセルレベルのラベルを割り当てることを目的としている。 ESC-Netは、SAMデコーダブロックを利用してクラスに依存しないセグメンテーションを行う新しい1段オープン語彙セグメンテーションモデルである。 ESC-NetはADE20K、PASCAL-VOC、PASCAL-Contextなどの標準ベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-11-22T04:36:12Z)
ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文参考訳（メタデータ） (2024-07-17T09:52:20Z)
Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文参考訳（メタデータ） (2024-02-04T16:06:05Z)
Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation [33.336549577936196]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。 SemPLeSは、オブジェクトリージョンとクラスラベルのセマンティックアライメントを改善することができるため、セグメンテーションモデルをトレーニングするための擬似マスクが望ましい。
論文参考訳（メタデータ） (2024-01-22T09:41:05Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文参考訳（メタデータ） (2023-03-21T12:28:21Z)
Distribution Regularized Self-Supervised Learning for Domain Adaptation of Semantic Segmentation [3.284878354988896]
本稿では,セマンティックセグメンテーションの自己教師付きドメイン適応のための画素レベル分布正規化スキーム(DRSL)を提案する。典型的な環境では、分類損失はセマンティックセグメンテーションモデルにクラス間のバリエーションをキャプチャする表現を欲しがらせるように強制する。クラス認識型マルチモーダル分布学習により,ピクセルレベルのクラス内変動を捉える。
論文参考訳（メタデータ） (2022-06-20T09:52:49Z)
Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文参考訳（メタデータ） (2021-06-01T02:17:36Z)
A Correspondence Variational Autoencoder for Unsupervised Acoustic Word Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文参考訳（メタデータ） (2020-12-03T19:24:42Z)
SASO: Joint 3D Semantic-Instance Segmentation via Multi-scale Semantic Association and Salient Point Clustering Optimization [8.519716460338518]
セグメンテーションタスクとインスタンスセグメンテーションタスクを共同で行う,SASOという新しい3Dポイントクラウドセグメンテーションフレームワークを提案する。空間的文脈におけるオブジェクト間の固有相関から着想を得たセグメンテーションタスクに対して,マルチスケールセマンティックアソシエーション(MSA)モジュールを提案する。例えば、推論手順のみでクラスタリングを利用する以前の作業とは異なるセグメンテーションタスクでは、Salient Point Clustering Optimization (SPCO) モジュールを提案する。
論文参考訳（メタデータ） (2020-06-25T08:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。