論文の概要: Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images
- arxiv url: http://arxiv.org/abs/2307.15904v1
- Date: Sat, 29 Jul 2023 06:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:56:54.553858
- Title: Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images
- Title(参考訳): Sat2Cap:衛星画像からの微細テキスト記述のマッピング
- Authors: Aayush Dhakal, Adeel Ahmad, Subash Khanal, Srikumar Sastry, Nathan
Jacobs
- Abstract要約: 自由形式のテキスト記述(あるいはキャプション)を用いた地図作成のための弱教師付きアプローチを提案する。
私たちは、ペア化されたオーバーヘッドと地上レベルのイメージの大規模なデータセット上に、Sat2Capと呼ばれる対照的な学習フレームワークをトレーニングします。
実験結果から, モデルが微細な概念を捕捉し, 時間変動に効果的に適用できることが示唆された。
- 参考スコア(独自算出の注目度): 12.0695530425315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel weakly supervised approach for creating maps using
free-form textual descriptions (or captions). We refer to this new line of work
of creating textual maps as zero-shot mapping. Prior works have approached
mapping tasks by developing models that predict over a fixed set of attributes
using overhead imagery. However, these models are very restrictive as they can
only solve highly specific tasks for which they were trained. Mapping text, on
the other hand, allows us to solve a large variety of mapping problems with
minimal restrictions. To achieve this, we train a contrastive learning
framework called Sat2Cap on a new large-scale dataset of paired overhead and
ground-level images. For a given location, our model predicts the expected CLIP
embedding of the ground-level scenery. Sat2Cap is also conditioned on temporal
information, enabling it to learn dynamic concepts that vary over time. Our
experimental results demonstrate that our models successfully capture
fine-grained concepts and effectively adapt to temporal variations. Our
approach does not require any text-labeled data making the training easily
scalable. The code, dataset, and models will be made publicly available.
- Abstract(参考訳): 本稿では,自由形式のテキスト記述(あるいはキャプション)を用いた地図作成手法を提案する。
テキストマップをゼロショットマッピング(zero-shot mapping)として作成するこの新たな作業について言及する。
以前の研究は、オーバーヘッド画像を使用して一定の属性セットを予測するモデルを開発することでマッピングタスクにアプローチしてきた。
しかしながら、これらのモデルは、訓練された特定のタスクのみを解決することができるため、非常に制限的です。
一方、テキストのマッピングは、最小限の制限で、さまざまなマッピング問題を解決することができます。
これを実現するために、我々はSat2Capと呼ばれる対照的な学習フレームワークをペアのオーバーヘッドと地上レベルの画像の大規模なデータセットでトレーニングする。
与えられた場所について、我々のモデルは地上の風景のCLIP埋め込みを予測する。
Sat2Capは、時間とともに変化する動的概念を学習できるように、時間的情報にも条件付けされている。
実験の結果,モデルがきめ細かな概念をうまく捉え,時間変化に効果的に対応できることが判明した。
当社のアプローチでは、テキストラベルデータを必要としないため、トレーニングのスケーラブル化が容易です。
コード、データセット、モデルは公開される予定だ。
関連論文リスト
- IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Is Cross-modal Information Retrieval Possible without Training? [4.616703548353372]
Procrustes問題に対する解の最小二乗と特異値分解(SVD)から計算した単純な写像をとる。
すなわち、テキストのようなあるモダリティの情報が与えられた場合、このマッピングは、画像のような別のモダリティにおける意味的に等価なデータ項目を見つけるのに役立ちます。
既訓練の深層学習モデルを用いて,テキスト・ツー・イメージ検索と画像・トゥ・テキスト検索のタスクにおいて,上記の単純なモーダル・マッピングを実験した。
論文 参考訳(メタデータ) (2023-04-20T02:36:18Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Discoverability in Satellite Imagery: A Good Sentence is Worth a
Thousand Pictures [0.0]
小さな衛星星座は地球の陸地を毎日カバーしている。
テキストアノテーションを原画素から抽出するには、2つの依存機械学習モデルが必要である。
衛星画像キャプションにおいて,これまでで最大のベンチマークで7つのモデルを評価した。
論文 参考訳(メタデータ) (2020-01-03T20:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。