論文の概要: LaVIDE: A Language-Vision Discriminator for Detecting Changes in Satellite Image with Map References
- arxiv url: http://arxiv.org/abs/2411.19758v1
- Date: Fri, 29 Nov 2024 15:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:49.258971
- Title: LaVIDE: A Language-Vision Discriminator for Detecting Changes in Satellite Image with Map References
- Title(参考訳): LaVIDE: 地図参照による衛星画像の変化検出のための言語ビジョン判別器
- Authors: Shuguo Jiang, Fang Xu, Sen Jia, Gui-Song Xia,
- Abstract要約: 変更検出は、単一のイメージしか利用できない場合、大幅に妨げられる。
衛星画像の変化を地図参照で検出するtextbfLanguage-textbfVIsion textbfDiscriminatorを提案する。
- 参考スコア(独自算出の注目度): 31.376693854087122
- License:
- Abstract: Change detection, which typically relies on the comparison of bi-temporal images, is significantly hindered when only a single image is available. Comparing a single image with an existing map, such as OpenStreetMap, which is continuously updated through crowd-sourcing, offers a viable solution to this challenge. Unlike images that carry low-level visual details of ground objects, maps convey high-level categorical information. This discrepancy in abstraction levels complicates the alignment and comparison of the two data types. In this paper, we propose a \textbf{La}nguage-\textbf{VI}sion \textbf{D}iscriminator for d\textbf{E}tecting changes in satellite image with map references, namely \ours{}, which leverages language to bridge the information gap between maps and images. Specifically, \ours{} formulates change detection as the problem of ``{\textit Does the pixel belong to [class]?}'', aligning maps and images within the feature space of the language-vision model to associate high-level map categories with low-level image details. Moreover, we build a mixture-of-experts discriminative module, which compares linguistic features from maps with visual features from images across various semantic perspectives, achieving comprehensive semantic comparison for change detection. Extensive evaluation on four benchmark datasets demonstrates that \ours{} can effectively detect changes in satellite image with map references, outperforming state-of-the-art change detection algorithms, e.g., with gains of about $13.8$\% on the DynamicEarthNet dataset and $4.3$\% on the SECOND dataset.
- Abstract(参考訳): 通常、バイテンポラル画像の比較に依存する変更検出は、1つの画像しか利用できない場合、著しく妨げられる。
クラウドソーシングを通じて継続的に更新されるOpenStreetMapのような,既存のマップとひとつのイメージを比較することで,この課題に対する実行可能なソリューションを提供する。
地上オブジェクトの低レベルの視覚的詳細を持つ画像とは異なり、地図は高レベルの分類情報を伝達する。
この抽象レベルでの相違は、2つのデータ型のアライメントと比較を複雑にする。
本稿では,d\textbf{E} の衛星画像における変化を地図参照で検出するために,d\textbf{La}nguage-\textbf{VI}sion \textbf{D}iscriminator を提案する。
具体的には、 \ours{} は ``{\textit の問題として変更検出を定式化します。
言語ビジョンモデルの特徴空間内のマップとイメージをアライメントすることで、高レベルのマップカテゴリと低レベルのイメージ詳細を関連付ける。
さらに,様々な意味的視点における画像の視覚的特徴と地図の言語的特徴を比較し,変化検出のための包括的意味的比較を実現する。
4つのベンチマークデータセットの大規模な評価は、 \ours{}が地図参照による衛星画像の変化を効果的に検出できることを示し、例えば、DynamicEarthNetデータセットでは13.8$\%、SECONDデータセットでは4.3$\%のゲインで、最先端の変更検出アルゴリズムよりも優れていることを示している。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - MapFormer: Boosting Change Detection by Using Pre-change Information [2.436285270638041]
地表面の特徴を記述した既存の地図を両時間画像の変化検出に活用する。
潜在表現の連結による付加情報の簡易な統合は、最先端の変更検出方法よりもはるかに優れていることを示す。
提案手法は,DynamicEarthNet と HRSCD のバイナリ変更 IoU において,絶対 11.7% と 18.4% で既存の変更検出手法より優れている。
論文 参考訳(メタデータ) (2023-03-31T07:39:12Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - ViTOL: Vision Transformer for Weakly Supervised Object Localization [0.735996217853436]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのカテゴリラベルのみを用いて、画像内のオブジェクト位置を予測することを目的としている。
画像分類モデルがローカライズ対象の場合に遭遇する一般的な課題は、(a) ローカライズマップを非常に小さな領域に限定する画像において最も識別性の高い特徴を見る傾向にあり、(b) ローカライズマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトする。
論文 参考訳(メタデータ) (2022-04-14T06:16:34Z) - Semantic Pose Verification for Outdoor Visual Localization with
Self-supervised Contrastive Learning [0.0]
我々は視覚的ローカライゼーションを改善するためにセマンティックコンテンツを利用する。
このシナリオでは、データベースはパノラマ画像から生成されたグノーモニックビューで構成されている。
我々は、セグメンテーションされた画像のデータセット上で、コントラスト学習を行い、自己教師型でCNNを訓練する。
論文 参考訳(メタデータ) (2022-03-31T11:09:38Z) - Aerial Map-Based Navigation Using Semantic Segmentation and Pattern
Matching [1.6244541005112747]
提案システムは,画像と地図データベース間の画像と画像のマッチングではなく,ラベルとラベルのマッチングを試みる。
高レベルの特徴を抽出するツールとしてディープラーニング技術を用いることで、画像ベースのローカライゼーション問題をパターンマッチング問題に還元する。
論文 参考訳(メタデータ) (2021-07-01T18:31:42Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。