論文の概要: TimeSenCLIP: A Vision-Language Model for Remote Sensing Using Single-Pixel Time Series
- arxiv url: http://arxiv.org/abs/2508.11919v1
- Date: Sat, 16 Aug 2025 05:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.45031
- Title: TimeSenCLIP: A Vision-Language Model for Remote Sensing Using Single-Pixel Time Series
- Title(参考訳): TimeSenCLIP:シングルピクセル時系列を用いたリモートセンシングのための視覚言語モデル
- Authors: Pallavi Jain, Diego Marcos, Dino Ienco, Roberto Interdonato, Tristan Berchoux,
- Abstract要約: TimeSenCLIPは、単一のピクセルの有効性を評価することにより、空間コンテキストの役割を再評価する軽量フレームワークである。
センチネル2画像からのスペクトル情報と時間情報を活用することで、キャプションベースのトレーニングの必要性を最小限に抑える。
我々のアプローチはLUCASとSen4Mapのデータセットに基づいており、LULC、作物タイプ、生態系タイプなどの分類タスクに基づいて評価されている。
- 参考スコア(独自算出の注目度): 9.263651699452996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have shown significant promise in remote sensing applications, particularly for land-use and land-cover (LULC) via zero-shot classification and retrieval. However, current approaches face two key challenges: reliance on large spatial tiles that increase computational cost, and dependence on text-based supervision, which is often not readily available. In this work, we present TimeSenCLIP, a lightweight framework that reevaluate the role of spatial context by evaluating the effectiveness of a single pixel by leveraging its temporal and spectral dimensions, for classifying LULC and ecosystem types. By leveraging spectral and temporal information from Sentinel-2 imagery and cross-view learning with geo-tagged ground-level photos, we minimises the need for caption-based training while preserving semantic alignment between overhead (satellite) and ground perspectives. Our approach is grounded in the LUCAS and Sen4Map datasets, and evaluated on classification tasks including LULC, crop type, and ecosystem type. We demonstrate that single pixel inputs, when combined with temporal and spectral cues, are sufficient for thematic mapping, offering a scalable and efficient alternative for large-scale remote sensing applications. Code is available at https://github.com/pallavijain-pj/TimeSenCLIP
- Abstract(参考訳): 視覚言語モデルはリモートセンシング、特にゼロショット分類と検索による土地利用と土地被覆(LULC)において大きな可能性を示してきた。
しかし、現在のアプローチでは、計算コストを増大させる大きな空間タイルへの依存と、しばしば利用できないテキストベースの監督への依存という2つの大きな課題に直面している。
本研究では、LULCと生態系タイプを分類するために、その時間的・スペクトル的次元を活用することにより、単一画素の有効性を評価することにより、空間コンテキストの役割を再評価する軽量フレームワークであるTimeSenCLIPを提案する。
ジオタグ付き地上レベルの写真を用いて,Sentinel-2画像からのスペクトル・時間的情報とクロスビュー学習を活用することにより,頭上(衛星)と地上の視点のセマンティックアライメントを保ちながら,キャプションベースのトレーニングの必要性を最小限に抑える。
我々のアプローチはLUCASとSen4Mapのデータセットに基づいており、LULC、作物タイプ、生態系タイプなどの分類タスクに基づいて評価されている。
一つの画素入力と時間的およびスペクトル的なキューを組み合わせると、テーママッピングに十分であり、大規模リモートセンシングアプリケーションにスケーラブルで効率的な代替手段を提供する。
コードはhttps://github.com/pallavijain-pj/TimeSenCLIPで入手できる。
関連論文リスト
- SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - Galileo: Learning Global & Local Features of Many Remote Sensing Modalities [34.71460539414284]
そこで本稿では,マスクモデルを用いて,柔軟な入力モダリティの集合にまたがるマルチスケール特徴を抽出する,自己教師付き学習アルゴリズムを提案する。
私たちのガリレオは、11のベンチマークと複数のタスクで衛星画像とピクセル時系列のSoTAスペシャリストモデルを上回る、単一のジェネラリストモデルです。
論文 参考訳(メタデータ) (2025-02-13T14:21:03Z) - LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding [29.42797944919497]
LLaVA-STは空間的・時間的マルチモーダル理解のためのMLLMである。
LLaVA-STでは,座標の特別なトークンを視覚空間に埋め込んだLanguage-Aligned Positional Embeddingを提案する。
また、時間分解能と空間分解能の特徴圧縮を2つの異なるポイント・ツー・リージョンのアテンション処理ストリームに分離する空間-テンポラル・パッカーを設計する。
論文 参考訳(メタデータ) (2025-01-14T17:58:12Z) - Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - A generic self-supervised learning (SSL) framework for representation
learning from spectra-spatial feature of unlabeled remote sensing imagery [4.397725469518669]
自己教師付き学習(SSL)では、モデルが桁違いに遅延のないデータから表現を学習することができる。
この研究は、未ラベルデータのスペクトル空間情報の両方から表現を学習できる新しいSSLフレームワークを設計した。
論文 参考訳(メタデータ) (2023-06-27T23:50:43Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。