Fugu-MT 論文翻訳(概要): Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation

論文の概要: Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation

arxiv url: http://arxiv.org/abs/2409.13637v2
Date: Fri, 27 Dec 2024 02:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.838027
Title: Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation
Title（参考訳）: リモートセンシング画像分割参照のための微粒化画像テキストアライメントの探索
Authors: Sen Lei, Xinyu Xiao, Tianlin Zhang, Heng-Chao Li, Zhenwei Shi, Qing Zhu,
Abstract要約: 視覚的および言語的表現を完全に活用するために,新しい参照リモートセンシング画像分割法を提案する。提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
参考スコア（独自算出の注目度）: 27.13782704236074
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given a language expression, referring remote sensing image segmentation (RRSIS) aims to identify ground objects and assign pixel-wise labels within the imagery. The one of key challenges for this task is to capture discriminative multi-modal features via text-image alignment. However, the existing RRSIS methods use one vanilla and coarse alignment, where the language expression is directly extracted to be fused with the visual features. In this paper, we argue that a ``fine-grained image-text alignment'' can improve the extraction of multi-modal information. To this point, we propose a new referring remote sensing image segmentation method to fully exploit the visual and linguistic representations. Specifically, the original referring expression is regarded as context text, which is further decoupled into the ground object and spatial position texts. The proposed fine-grained image-text alignment module (FIAM) would simultaneously leverage the features of the input image and the corresponding texts, obtaining better discriminative multi-modal representation. Meanwhile, to handle the various scales of ground objects in remote sensing, we introduce a Text-aware Multi-scale Enhancement Module (TMEM) to adaptively perform cross-scale fusion and intersections. We evaluate the effectiveness of the proposed method on two public referring remote sensing datasets including RefSegRS and RRSIS-D, and our method obtains superior performance over several state-of-the-art methods. The code will be publicly available at https://github.com/Shaosifan/FIANet.
Abstract（参考訳）: 言語表現が与えられた場合、リモートセンシング画像セグメンテーション(RRSIS)は、画像内の接地対象を特定し、ピクセル単位のラベルを割り当てることを目的としている。このタスクの重要な課題の1つは、テキストイメージアライメントを通じて差別的なマルチモーダル機能をキャプチャすることである。しかし、既存のRRSIS法では1つのバニラと粗いアライメントを使用し、言語表現を直接抽出して視覚的特徴と融合させる。本稿では,「きめ細かい画像テキストアライメント」により,マルチモーダル情報の抽出を改善することができると論じる。そこで本稿では,視覚的および言語的表現を完全に活用する参照型リモートセンシング画像分割手法を提案する。具体的には、原文参照表現を文脈テキストとみなし、さらに地上オブジェクトと空間位置テキストに分解する。提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用し、より優れた識別的マルチモーダル表現を得る。一方,リモートセンシングにおける地上オブジェクトの様々なスケールを扱うために,テキスト対応マルチスケール拡張モジュール(TMEM)を導入し,クロススケールフュージョンと交差点を適応的に行う。本稿では,RefSegRS と RRSIS-D を含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価し,いくつかの最先端手法よりも優れた性能が得られることを示す。コードはhttps://github.com/Shaosifan/FIANetで公開される。

関連論文リスト

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。 RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-01-12T13:22:35Z)
Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval [37.775529830620016]
リモートセンシング画像-テキスト検索(RSITR)は、リモートセンシング(RS)ドメインにおける知識サービスとデータマイニングにおいて重要な機能である。現在のマルチスケールRSITRアプローチは、通常、マルチスケールの融合画像特徴とテキスト特徴とを一致させるが、異なるスケールで画像とテキストのペアを別々に並べて見落としている。本稿では,この制限を克服するために,新しいマルチスケールアライメント(MSA)手法を提案する。
論文参考訳（メタデータ） (2024-05-29T10:19:11Z)
CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。 CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。視覚言語モデルの領域表現を効果的に強化することができる。
論文参考訳（メタデータ） (2023-12-18T17:39:47Z)
Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image Captioning [49.48946808024608]
BITAと呼ばれるリモートセンシング画像キャプションのための対話型画像テキストアライメントをブートストラップする2段階の視覚言語事前学習手法を提案する。具体的には、第1段階は画像テキストコントラスト学習による予備的なアライメントを含む。第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。
論文参考訳（メタデータ） (2023-12-02T17:32:17Z)
Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。 2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文参考訳（メタデータ） (2023-08-26T11:39:22Z)
Towards Robust Scene Text Image Super-resolution via Explicit Location Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文参考訳（メタデータ） (2023-07-19T05:08:47Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Language Guided Local Infiltration for Interactive Image Retrieval [12.324893780690918]
Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。我々の手法は、最先端のIIR手法よりも優れています。
論文参考訳（メタデータ） (2023-04-16T10:33:08Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。