論文の概要: Towards Temporal Change Explanations from Bi-Temporal Satellite Images
- arxiv url: http://arxiv.org/abs/2407.09548v1
- Date: Thu, 27 Jun 2024 12:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:08:56.027318
- Title: Towards Temporal Change Explanations from Bi-Temporal Satellite Images
- Title(参考訳): バイテンポラル衛星画像からの時間変化説明に向けて
- Authors: Ryo Tsujimoto, Hiroki Ouchi, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: 本稿では,衛星画像間の時間的変化を説明するために,大規模視覚言語モデルの有用性について検討する。
本稿では,衛星画像のパーパを入力として扱う3つのプロンプト手法を提案する。
人間の評価により,ステップ・バイ・ステップの推論に基づく推論の有効性を見出した。
- 参考スコア(独自算出の注目度): 28.445851360368803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explaining temporal changes between satellite images taken at different times is important for urban planning and environmental monitoring. However, manual dataset construction for the task is costly, so human-AI collaboration is promissing. Toward the direction, in this paper, we investigate the ability of Large-scale Vision-Language Models (LVLMs) to explain temporal changes between satellite images. While LVLMs are known to generate good image captions, they receive only a single image as input. To deal with a par of satellite images as input, we propose three prompting methods. Through human evaluation, we found the effectiveness of our step-by-step reasoning based prompting.
- Abstract(参考訳): 異なる時期に撮影された衛星画像間の時間的変化を説明することは、都市計画や環境モニタリングにおいて重要である。
しかし,手作業による手作業によるデータセット構築にはコストがかかるため,人間とAIのコラボレーションは許容される。
本稿では,衛星画像間の時間的変化を説明するために,LVLM(Large-scale Vision-Language Models)の有用性について検討する。
LVLMは優れた画像キャプションを生成することが知られているが、入力として1つのイメージしか受信しない。
衛星画像のパーパを入力として扱うために,3つのプロンプト手法を提案する。
人間の評価により,ステップ・バイ・ステップの推論に基づく推論の有効性を見出した。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Continuous Urban Change Detection from Satellite Image Time Series with Temporal Feature Refinement and Multi-Task Integration [5.095834019284525]
都市化は前例のない速度で進行し、環境と人間の幸福に悪影響を及ぼす。
深層学習に基づく手法は,光衛星画像対による都市変化検出の有望な成果を得た。
本稿では,衛星画像時系列の連続した画像対の変化を識別する連続都市変化検出手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:53:57Z) - SatDiffMoE: A Mixture of Estimation Method for Satellite Image Super-resolution with Latent Diffusion Models [3.839322642354617]
我々はtextbfSatDiffMoE と呼ばれる新しい拡散型融合アルゴリズムを提案する。
アルゴリズムは非常に柔軟で、任意の数の低解像度画像のトレーニングと推測が可能である。
実験の結果,SatDiffMoE法は衛星画像の超解像処理に優れていた。
論文 参考訳(メタデータ) (2024-06-14T17:58:28Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Self-Supervision in Time for Satellite Images(S3-TSS): A novel method of
SSL technique in Satellite images [0.38366697175402226]
S3-TSSは,時間次元で発生する自然増進を生かした自己教師型学習手法である。
提案手法は,4つの下流データセットにおいて,ベースラインのSeCoよりも優れた性能を示すことができた。
論文 参考訳(メタデータ) (2024-03-07T19:16:17Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Unsupervised Discovery of Semantic Concepts in Satellite Imagery with
Style-based Wavelet-driven Generative Models [27.62417543307831]
本稿では,衛星画像の広帯域合成が可能な,最初の事前学習型およびウェーブレット型GANモデルを提案する。
ネットワークの中間的アクティベーションを解析することにより、解釈可能なセマンティックな方向を多数発見できることが示される。
論文 参考訳(メタデータ) (2022-08-03T14:19:24Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Coming Down to Earth: Satellite-to-Street View Synthesis for
Geo-Localization [9.333087475006003]
クロスビュー画像に基づくジオローカライズは,この2つの領域間の視野と外観の違いから,非常に困難である。
衛星入力からリアルなストリートビューを合成することで,この不一致を明示的に解決できることを示す。
本稿では,画像合成と検索を共同で行うマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-11T17:40:59Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。