論文の概要: GeoLLaVA: Efficient Fine-Tuned Vision-Language Models for Temporal Change Detection in Remote Sensing
- arxiv url: http://arxiv.org/abs/2410.19552v1
- Date: Fri, 25 Oct 2024 13:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:32.223486
- Title: GeoLLaVA: Efficient Fine-Tuned Vision-Language Models for Temporal Change Detection in Remote Sensing
- Title(参考訳): GeoLLaVA:リモートセンシングにおける時間変化検出のための高能率微調整ビジョンランゲージモデル
- Authors: Hosam Elgendy, Ahmed Sharshar, Ahmed Aboeitta, Yasser Ashraf, Mohsen Guizani,
- Abstract要約: 本稿では、時間とともに変化する地理的パターンを追跡するために、ビデオフレームペアの注釈付きデータセットを提案する。
低ランク適応 (LoRA) や量子化 LoRA (QLoRA) などの微調整技術, ビデオララバやLLaVA-NeXT-Video などのモデルを用いたモデルプルーニングにより, リモートセンシング時間変化処理における VLM の性能を著しく向上させる。
その結果, BERTスコアが0.864, ROUGE-1スコアが0.576となり, 土地利用変化の精度が向上した。
- 参考スコア(独自算出の注目度): 28.343342755881064
- License:
- Abstract: Detecting temporal changes in geographical landscapes is critical for applications like environmental monitoring and urban planning. While remote sensing data is abundant, existing vision-language models (VLMs) often fail to capture temporal dynamics effectively. This paper addresses these limitations by introducing an annotated dataset of video frame pairs to track evolving geographical patterns over time. Using fine-tuning techniques like Low-Rank Adaptation (LoRA), quantized LoRA (QLoRA), and model pruning on models such as Video-LLaVA and LLaVA-NeXT-Video, we significantly enhance VLM performance in processing remote sensing temporal changes. Results show significant improvements, with the best performance achieving a BERT score of 0.864 and ROUGE-1 score of 0.576, demonstrating superior accuracy in describing land-use transformations.
- Abstract(参考訳): 地理的景観の時間的変化を検出することは、環境モニタリングや都市計画といった応用に不可欠である。
リモートセンシングデータは豊富であるが、既存の視覚言語モデル(VLM)は時間的ダイナミクスを効果的に捉えることができないことが多い。
本稿では、時間とともに変化する地理的パターンを追跡するために、ビデオフレームペアの注釈付きデータセットを導入することで、これらの制限に対処する。
また,ローランド適応 (LoRA) や量子化 LoRA (QLoRA) などの微調整技術や,ビデオララバやLLaVA-NeXT-Videoといったモデルを用いたモデルプルーニングにより,リモートセンシング時間変化処理におけるVLM性能を大幅に向上させる。
その結果, BERTスコアが0.864, ROUGE-1スコアが0.576となり, 土地利用変換の精度が向上した。
関連論文リスト
- IRASNet: Improved Feature-Level Clutter Reduction for Domain Generalized SAR-ATR [11.197991954581155]
本研究ではIRASNetと呼ばれるドメイン一般化SAR-ATRのためのフレームワークを提案する。
IRASNetは効果的な機能レベルのクラッタ削減とドメイン不変の機能学習を可能にする。
IRASNetは、性能を向上するだけでなく、特徴レベルのクラッタ低減を大幅に改善し、レーダ画像パターン認識の分野での貴重な進歩となる。
論文 参考訳(メタデータ) (2024-09-25T11:53:58Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Video Anomaly Detection and Explanation via Large Language Models [34.52845566893497]
ビデオ異常検出(VAD)は、長距離監視ビデオのタイムライン上で異常事象をローカライズすることを目的としている。
本稿では,ビデオベース大規模言語モデル(VLLM)をVADの枠組みで実装するための先駆的な研究を行う。
本稿では,長距離コンテキストモデリングにおけるVLLMの可読性を軽減するために,新しいネットワークモジュールLong-Term Context (LTC)を導入する。
論文 参考訳(メタデータ) (2024-01-11T07:09:44Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene
Change Detection [35.29786193920396]
本稿では,時間的注意の提示と時間的注意の依存性スコープサイズが変化検出の性能に及ぼす影響について検討する。
GSV', TSUNAMI', VL-CMU-CD'のストリートシーンデータセットでは, ベルや笛を使わずに新たな最先端のスコアが確立され, 優れた性能が得られる。
論文 参考訳(メタデータ) (2021-03-01T10:01:35Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。