論文の概要: Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images
- arxiv url: http://arxiv.org/abs/2307.15904v2
- Date: Thu, 11 Apr 2024 22:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 20:06:10.688987
- Title: Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images
- Title(参考訳): Sat2Cap:衛星画像からの微細テキスト記述のマッピング
- Authors: Aayush Dhakal, Adeel Ahmad, Subash Khanal, Srikumar Sastry, Hannah Kerner, Nathan Jacobs,
- Abstract要約: 自由形式のテキスト記述を用いた地図作成のための弱教師付きアプローチを提案する。
私たちはSat2Capと呼ばれる対照的な学習フレームワークを6.10万対のオーバーヘッドと地上レベルのイメージを持つ新しい大規模データセットでトレーニングします。
- 参考スコア(独自算出の注目度): 12.356676398446215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a weakly supervised approach for creating maps using free-form textual descriptions. We refer to this work of creating textual maps as zero-shot mapping. Prior works have approached mapping tasks by developing models that predict a fixed set of attributes using overhead imagery. However, these models are very restrictive as they can only solve highly specific tasks for which they were trained. Mapping text, on the other hand, allows us to solve a large variety of mapping problems with minimal restrictions. To achieve this, we train a contrastive learning framework called Sat2Cap on a new large-scale dataset with 6.1M pairs of overhead and ground-level images. For a given location and overhead image, our model predicts the expected CLIP embeddings of the ground-level scenery. The predicted CLIP embeddings are then used to learn about the textual space associated with that location. Sat2Cap is also conditioned on date-time information, allowing it to model temporally varying concepts over a location. Our experimental results demonstrate that our models successfully capture ground-level concepts and allow large-scale mapping of fine-grained textual queries. Our approach does not require any text-labeled data, making the training easily scalable. The code, dataset, and models will be made publicly available.
- Abstract(参考訳): 自由形式のテキスト記述を用いた地図作成のための弱教師付きアプローチを提案する。
テキストマップをゼロショットマッピングとして作成するこの作業について言及する。
以前の研究は、オーバーヘッド画像を使用して属性の固定セットを予測するモデルを開発することでマッピングタスクにアプローチしてきた。
しかしながら、これらのモデルは、訓練された特定のタスクのみを解決することができるため、非常に制限的です。
一方、テキストのマッピングは、最小限の制約で、さまざまなマッピング問題を解くことができる。
これを実現するために、Sat2Capと呼ばれる対照的な学習フレームワークを6.10万対のオーバーヘッドと地上レベルのイメージを持つ新しい大規模データセットでトレーニングする。
所定の位置とオーバヘッド画像に対して、地上の風景の予測されたCLIP埋め込みを予測する。
予測されたCLIP埋め込みは、そのロケーションに関連するテキスト空間について学ぶために使用される。
Sat2Capは日付情報にも条件付けされており、時間的に異なる概念をロケーション上でモデル化することができる。
実験により,本モデルが地上レベルの概念を抽出し,詳細なテキストクエリを大規模にマッピングできることが実証された。
当社のアプローチでは,テキストラベル付きデータを必要としないため,トレーニングのスケーラブル化が容易です。
コード、データセット、モデルは公開されます。
関連論文リスト
- Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:26:19Z) - Evaluating Tool-Augmented Agents in Remote Sensing Platforms [1.8434042562191815]
既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
論文 参考訳(メタデータ) (2024-04-23T20:37:24Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Is Cross-modal Information Retrieval Possible without Training? [4.616703548353372]
Procrustes問題に対する解の最小二乗と特異値分解(SVD)から計算した単純な写像をとる。
すなわち、テキストのようなあるモダリティの情報が与えられた場合、このマッピングは、画像のような別のモダリティにおける意味的に等価なデータ項目を見つけるのに役立ちます。
既訓練の深層学習モデルを用いて,テキスト・ツー・イメージ検索と画像・トゥ・テキスト検索のタスクにおいて,上記の単純なモーダル・マッピングを実験した。
論文 参考訳(メタデータ) (2023-04-20T02:36:18Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。