論文の概要: GEOBIND: Binding Text, Image, and Audio through Satellite Images
- arxiv url: http://arxiv.org/abs/2404.11720v1
- Date: Wed, 17 Apr 2024 20:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:30:32.964438
- Title: GEOBIND: Binding Text, Image, and Audio through Satellite Images
- Title(参考訳): GEOBIND:衛星画像によるテキスト、画像、オーディオの結合
- Authors: Aayush Dhakal, Subash Khanal, Srikumar Sastry, Adeel Ahmad, Nathan Jacobs,
- Abstract要約: 我々は、位置情報の衛星画像からテキスト、画像、音声など複数のモードを推測できるディープラーニングモデルGeoBindを提案する。
トレーニングの結果,衛星画像,地上画像,音声,テキストなど,複数の種類のデータを用いた共同埋め込み空間が得られた。
- 参考スコア(独自算出の注目度): 7.291750095728984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In remote sensing, we are interested in modeling various modalities for some geographic location. Several works have focused on learning the relationship between a location and type of landscape, habitability, audio, textual descriptions, etc. Recently, a common way to approach these problems is to train a deep-learning model that uses satellite images to infer some unique characteristics of the location. In this work, we present a deep-learning model, GeoBind, that can infer about multiple modalities, specifically text, image, and audio, from satellite imagery of a location. To do this, we use satellite images as the binding element and contrastively align all other modalities to the satellite image data. Our training results in a joint embedding space with multiple types of data: satellite image, ground-level image, audio, and text. Furthermore, our approach does not require a single complex dataset that contains all the modalities mentioned above. Rather it only requires multiple satellite-image paired data. While we only align three modalities in this paper, we present a general framework that can be used to create an embedding space with any number of modalities by using satellite images as the binding element. Our results show that, unlike traditional unimodal models, GeoBind is versatile and can reason about multiple modalities for a given satellite image input.
- Abstract(参考訳): リモートセンシングでは、地理的な位置の様々なモダリティをモデル化することに興味がある。
いくつかの作品では、場所と風景の種類、居住性、オーディオ、テキスト記述などとの関係について学ぶことに重点を置いている。
近年,衛星画像を用いて位置の特異な特徴を推測する深層学習モデルを訓練する手法が一般的である。
本研究では、位置情報の衛星画像からテキスト、画像、音声など複数のモードを推測できるディープラーニングモデルGeoBindを提案する。
これを実現するために,衛星画像を結合要素として使用し,他のすべてのモダリティを衛星画像データと対比的に整列する。
トレーニングの結果,衛星画像,地上画像,音声,テキストなど,複数の種類のデータを用いた共同埋め込み空間が得られた。
さらに、上記の全てのモダリティを含む単一の複雑なデータセットは不要である。
むしろ、複数の衛星画像のペアデータしか必要としない。
本論文では, 3つのモダリティのみをアライメントするが, サテライトイメージを結合要素として用いることで, 任意のモダリティを持つ埋め込み空間を作成できる汎用フレームワークを提案する。
この結果から,GeoBindは従来型とは違って汎用性があり,衛星画像の入力に対して複数のモダリティを推論できることが示唆された。
関連論文リスト
- A Semantic Segmentation-guided Approach for Ground-to-Aerial Image Matching [30.324252605889356]
本研究は,GPSデータを使わずに,問合せ地上画像と対応する衛星画像とをマッチングする問題に対処する。
これは地上画像と衛星画像の特徴を比較することで行われ、3ストリームのシームズ様のネットワークを通じて、対応する衛星のセグメンテーションマスクを革新的に活用する。
この新しさは、衛星画像とセマンティックセグメンテーションマスクの融合にあり、モデルが有用な特徴を抽出し、画像の重要な部分に集中できるようにすることを目的としている。
論文 参考訳(メタデータ) (2024-04-17T12:13:18Z) - GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis [7.822924588609674]
衛星画像のグローバルなスタイルと画像駆動レイアウト制御による合成モデルを提案する。
我々は、自動生成されたキャプションとOpenStreetMapデータを用いて、ペア化された衛星画像の大規模なデータセットに基づいてモデルをトレーニングする。
その結果,本モデルは多種多様な高品質の画像を生成することができ,ゼロショットの一般化に優れることを示した。
論文 参考訳(メタデータ) (2024-04-09T22:16:34Z) - 3MOS: Multi-sources, Multi-resolutions, and Multi-scenes dataset for Optical-SAR image matching [6.13702551312774]
光SAR画像マッチングのための大規模マルチソース、マルチ解像度、マルチシーンデータセット(3MOS)を紹介する。
6つの商用衛星からのSARデータを含む155Kの光学SAR画像対で構成され、解像度は1.25mから12.5mである。
データは、都市、農村、平野、丘、山、水、砂漠、凍った土を含む8つのシーンに分類されている。
論文 参考訳(メタデータ) (2024-04-01T00:31:11Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - CVLNet: Cross-View Semantic Correspondence Learning for Video-based
Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。
本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。
実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文 参考訳(メタデータ) (2022-08-07T07:35:17Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Seamless Satellite-image Synthesis [1.3401746329218014]
2Dデータは安価で容易だが、正確な衛星画像は高価であり、しばしば利用できない、または時代遅れである。
我々のアプローチは、スケール空間を通して一貫した任意の範囲のシームレスなテクスチャである。
論文 参考訳(メタデータ) (2021-11-05T10:42:24Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。