論文の概要: ChatENV: An Interactive Vision-Language Model for Sensor-Guided Environmental Monitoring and Scenario Simulation
- arxiv url: http://arxiv.org/abs/2508.10635v1
- Date: Thu, 14 Aug 2025 13:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.330133
- Title: ChatENV: An Interactive Vision-Language Model for Sensor-Guided Environmental Monitoring and Scenario Simulation
- Title(参考訳): ChatENV: センサによる環境モニタリングとシナリオシミュレーションのための対話型ビジョンランゲージモデル
- Authors: Hosam Elgendy, Ahmed Sharshar, Ahmed Aboeitta, Mohsen Guizani,
- Abstract要約: 本稿では,衛星画像ペアと実世界のセンサデータとを併用した初の対話型VLMであるChatENVを紹介する。
i) GPT-4o と Gemini 2.0 を用いたデータアノテート,および (iii) チャット目的の効率的な低ランク適応 (LoRA) アダプタを用いた細管Qwen-2.5-VL。
- 参考スコア(独自算出の注目度): 30.408040601699597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding environmental changes from aerial imagery is vital for climate resilience, urban planning, and ecosystem monitoring. Yet, current vision language models (VLMs) overlook causal signals from environmental sensors, rely on single-source captions prone to stylistic bias, and lack interactive scenario-based reasoning. We present ChatENV, the first interactive VLM that jointly reasons over satellite image pairs and real-world sensor data. Our framework: (i) creates a 177k-image dataset forming 152k temporal pairs across 62 land-use classes in 197 countries with rich sensor metadata (e.g., temperature, PM10, CO); (ii) annotates data using GPT- 4o and Gemini 2.0 for stylistic and semantic diversity; and (iii) fine-tunes Qwen-2.5-VL using efficient Low-Rank Adaptation (LoRA) adapters for chat purposes. ChatENV achieves strong performance in temporal and "what-if" reasoning (e.g., BERT-F1 0.903) and rivals or outperforms state-of-the-art temporal models, while supporting interactive scenario-based analysis. This positions ChatENV as a powerful tool for grounded, sensor-aware environmental monitoring.
- Abstract(参考訳): 航空画像からの環境変化を理解することは、気候の回復力、都市計画、生態系のモニタリングに不可欠である。
しかし、現在の視覚言語モデル(VLM)は、環境センサからの因果的信号を見落とし、単一のソースキャプションはスタイルバイアスに起因し、対話的なシナリオベースの推論を欠いている。
本稿では,衛星画像ペアと実世界のセンサデータとを併用した初の対話型VLMであるChatENVを紹介する。
私たちのフレームワーク:
i) センサメタデータ(例えば、温度、PM10、CO)が豊富な197か国で、62の土地利用クラスにまたがる177k画像データセットを作成する。
(II) GPT-4o と Gemini 2.0 を用いたデータアノテートによる構造的・意味的多様性
3)チャット用ローランク適応 (LoRA) アダプタを用いた微細構造Qwen-2.5-VL。
ChatENVは、時間的および「何」な推論(例えばBERT-F1 0.903)において強いパフォーマンスを達成し、対話的なシナリオベースの分析をサポートしながら、最先端の時間的モデルに匹敵する、あるいは優れる。
これによりChatENVは、接地されたセンサーによる環境モニタリングのための強力なツールとなる。
関連論文リスト
- UMDATrack: Unified Multi-Domain Adaptive Tracking Under Adverse Weather Conditions [73.71632291123008]
各種の悪天候条件下での高品質な目標状態予測を行うUMDATrackを提案する。
私たちのコードはhttps://github.com/Z-Z188/UMDATrack.comから入手可能です。
論文 参考訳(メタデータ) (2025-07-01T10:43:57Z) - STRMs: Spatial Temporal Reasoning Models for Vision-Based Localization Rivaling GPS Precision [3.671692919685993]
VAE-RNNとVAE-Transformerという2つの逐次生成モデルを導入し,一対一の視点観察をグローバルマップの視点表現に変換する。
我々は、ジャカルロボットによってナビゲートされた大学キャンパスと、Teslaセダンによってナビゲートされた都市中心街の2つの現実世界環境において、これらのモデルを評価した。
論文 参考訳(メタデータ) (2025-03-11T00:38:54Z) - Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark [15.405137983083875]
航空と地上の協力は、UAVの空中視界と地上の車両の局部的な観測を統合することで、有望な解決策を提供する。
本稿では,3つの重要な貢献を通じて,地上3次元協調認識のための包括的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:00:07Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - GeoFormer: A Vision and Sequence Transformer-based Approach for
Greenhouse Gas Monitoring [2.1647301294759624]
本研究では,NO2濃度を予測するために,視覚変換モジュールと高効率な時系列変換モジュールを組み合わせたコンパクトモデルを提案する。
我々は、地上監視局のSentinel-5P画像を用いて構築したデータセットを用いて、提案モデルを用いて表面レベルのNO2測定を予測する。
論文 参考訳(メタデータ) (2024-02-11T11:20:29Z) - Environmental Sensor Placement with Convolutional Gaussian Neural
Processes [65.13973319334625]
センサーは、特に南極のような遠隔地において、その測定の情報量が最大になるように配置することは困難である。
確率論的機械学習モデルは、予測の不確実性を最大限に低減するサイトを見つけることによって、情報的センサ配置を提案することができる。
本稿では,これらの問題に対処するために,畳み込み型ガウスニューラルプロセス(ConvGNP)を提案する。
論文 参考訳(メタデータ) (2022-11-18T17:25:14Z) - Cross-modal Learning of Graph Representations using Radar Point Cloud
for Long-Range Gesture Recognition [6.9545038359818445]
長距離(1m~2m)ジェスチャー認識のための新しいアーキテクチャを提案する。
私たちは、カメラポイントクラウドから60GHzのFMCWレーダポイントクラウドまで、ポイントクラウドベースのクロスラーニングアプローチを使用します。
実験結果では,5つのジェスチャーに対して98.4%の総合精度と一般化能力を示す。
論文 参考訳(メタデータ) (2022-03-31T14:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。