論文の概要: Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images
- arxiv url: http://arxiv.org/abs/2307.15904v1
- Date: Sat, 29 Jul 2023 06:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:56:54.553858
- Title: Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images
- Title(参考訳): Sat2Cap:衛星画像からの微細テキスト記述のマッピング
- Authors: Aayush Dhakal, Adeel Ahmad, Subash Khanal, Srikumar Sastry, Nathan
Jacobs
- Abstract要約: 自由形式のテキスト記述(あるいはキャプション)を用いた地図作成のための弱教師付きアプローチを提案する。
私たちは、ペア化されたオーバーヘッドと地上レベルのイメージの大規模なデータセット上に、Sat2Capと呼ばれる対照的な学習フレームワークをトレーニングします。
実験結果から, モデルが微細な概念を捕捉し, 時間変動に効果的に適用できることが示唆された。
- 参考スコア(独自算出の注目度): 12.0695530425315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel weakly supervised approach for creating maps using
free-form textual descriptions (or captions). We refer to this new line of work
of creating textual maps as zero-shot mapping. Prior works have approached
mapping tasks by developing models that predict over a fixed set of attributes
using overhead imagery. However, these models are very restrictive as they can
only solve highly specific tasks for which they were trained. Mapping text, on
the other hand, allows us to solve a large variety of mapping problems with
minimal restrictions. To achieve this, we train a contrastive learning
framework called Sat2Cap on a new large-scale dataset of paired overhead and
ground-level images. For a given location, our model predicts the expected CLIP
embedding of the ground-level scenery. Sat2Cap is also conditioned on temporal
information, enabling it to learn dynamic concepts that vary over time. Our
experimental results demonstrate that our models successfully capture
fine-grained concepts and effectively adapt to temporal variations. Our
approach does not require any text-labeled data making the training easily
scalable. The code, dataset, and models will be made publicly available.
- Abstract(参考訳): 本稿では,自由形式のテキスト記述(あるいはキャプション)を用いた地図作成手法を提案する。
テキストマップをゼロショットマッピング(zero-shot mapping)として作成するこの新たな作業について言及する。
以前の研究は、オーバーヘッド画像を使用して一定の属性セットを予測するモデルを開発することでマッピングタスクにアプローチしてきた。
しかしながら、これらのモデルは、訓練された特定のタスクのみを解決することができるため、非常に制限的です。
一方、テキストのマッピングは、最小限の制限で、さまざまなマッピング問題を解決することができます。
これを実現するために、我々はSat2Capと呼ばれる対照的な学習フレームワークをペアのオーバーヘッドと地上レベルの画像の大規模なデータセットでトレーニングする。
与えられた場所について、我々のモデルは地上の風景のCLIP埋め込みを予測する。
Sat2Capは、時間とともに変化する動的概念を学習できるように、時間的情報にも条件付けされている。
実験の結果,モデルがきめ細かな概念をうまく捉え,時間変化に効果的に対応できることが判明した。
当社のアプローチでは、テキストラベルデータを必要としないため、トレーニングのスケーラブル化が容易です。
コード、データセット、モデルは公開される予定だ。
関連論文リスト
- Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:26:19Z) - Evaluating Tool-Augmented Agents in Remote Sensing Platforms [1.8434042562191815]
既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
論文 参考訳(メタデータ) (2024-04-23T20:37:24Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Is Cross-modal Information Retrieval Possible without Training? [4.616703548353372]
Procrustes問題に対する解の最小二乗と特異値分解(SVD)から計算した単純な写像をとる。
すなわち、テキストのようなあるモダリティの情報が与えられた場合、このマッピングは、画像のような別のモダリティにおける意味的に等価なデータ項目を見つけるのに役立ちます。
既訓練の深層学習モデルを用いて,テキスト・ツー・イメージ検索と画像・トゥ・テキスト検索のタスクにおいて,上記の単純なモーダル・マッピングを実験した。
論文 参考訳(メタデータ) (2023-04-20T02:36:18Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。