論文の概要: Forest-Chat: Adapting Vision-Language Agents for Interactive Forest Change Analysis
- arxiv url: http://arxiv.org/abs/2601.14637v1
- Date: Wed, 21 Jan 2026 04:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.231731
- Title: Forest-Chat: Adapting Vision-Language Agents for Interactive Forest Change Analysis
- Title(参考訳): Forest-Chat:対話型森林変動解析のための視覚言語エージェントの適応
- Authors: James Brock, Ce Zhang, Nantheera Anantrasirichai,
- Abstract要約: 大規模言語モデル(LLM)は、データ探索にますます採用されている。
リモートセンシング画像変化解釈(RSICI)のための視覚言語モデル(VLM)との統合はいまだ検討されていない。
森林変動解析のためのLLM駆動型エージェントであるフォレスト-Chatについて紹介する。
- 参考スコア(独自算出の注目度): 8.37327492233826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing availability of high-resolution satellite imagery, together with advances in deep learning, creates new opportunities for enhancing forest monitoring workflows. Two central challenges in this domain are pixel-level change detection and semantic change interpretation, particularly for complex forest dynamics. While large language models (LLMs) are increasingly adopted for data exploration, their integration with vision-language models (VLMs) for remote sensing image change interpretation (RSICI) remains underexplored, especially beyond urban environments. We introduce Forest-Chat, an LLM-driven agent designed for integrated forest change analysis. The proposed framework enables natural language querying and supports multiple RSICI tasks, including change detection, change captioning, object counting, deforestation percentage estimation, and change reasoning. Forest-Chat builds upon a multi-level change interpretation (MCI) vision-language backbone with LLM-based orchestration, and incorporates zero-shot change detection via a foundation change detection model together with an interactive point-prompt interface to support fine-grained user guidance. To facilitate adaptation and evaluation in forest environments, we introduce the Forest-Change dataset, comprising bi-temporal satellite imagery, pixel-level change masks, and multi-granularity semantic change captions generated through a combination of human annotation and rule-based methods. Experimental results demonstrate that Forest-Chat achieves strong performance on Forest-Change and on LEVIR-MCI-Trees, a tree-focused subset of LEVIR-MCI, for joint change detection and captioning, highlighting the potential of interactive, LLM-driven RSICI systems to improve accessibility, interpretability, and analytical efficiency in forest change analysis.
- Abstract(参考訳): 高解像度衛星画像の利用が増加し、ディープラーニングの進歩とともに、森林監視ワークフローを強化する新たな機会が生まれる。
この領域における2つの中心的な課題は、特に複雑な森林力学において、ピクセルレベルの変化検出と意味的変化解釈である。
大規模言語モデル (LLM) はデータ探索にますます採用されているが、リモートセンシング画像変化解釈 (RSICI) のための視覚言語モデル (VLM) との統合は、特に都市環境を超えて検討されていない。
森林変動解析のためのLLM駆動型エージェントであるフォレスト-Chatについて紹介する。
提案フレームワークは、変更検出、変更キャプション、オブジェクトカウント、森林破壊率の推定、変更推論など、自然言語クエリを可能にし、複数のRSICIタスクをサポートする。
Forest-Chatは、LLMベースのオーケストレーションを備えたマルチレベル変更言語バックボーン(MCI)に基づいて構築されており、ファンデーション変更検出モデルによるゼロショット変更検出と、詳細なユーザガイダンスをサポートするインタラクティブなポイントプロンプトインターフェースを備えている。
森林環境への適応と評価を容易にするため,両時間衛星画像,画素レベルの変更マスク,および人間のアノテーションとルールベースの手法を組み合わせた多粒度意味変化キャプションを含むフォレスト・チャンジデータセットを導入した。
LEVIR-MCIのツリー中心サブセットであるLEVIR-MCI-Treesは,森林変動解析におけるアクセシビリティ,解釈可能性,解析効率を向上させるために,対話型LLM駆動型RSICIシステムの可能性を強調した。
関連論文リスト
- Vision-Language Agents for Interactive Forest Change Analysis [8.37327492233826]
複数のRSICIタスクにまたがる自然言語クエリをサポートする林分変化解析エージェントを提案する。
提案システムは,LLMベースのオーケストレーションを用いたマルチレベル変化解釈(MCI)に基づく。
実験の結果、提案されたシステムmIoUとBLEU-4はフォレスト・チャンジのデータセットで67.10%と40.17%、LEVIR-MCI-Treesでは88.13%と34.41%であった。
論文 参考訳(メタデータ) (2026-01-08T02:02:36Z) - SATGround: A Spatially-Aware Approach for Visual Grounding in Remote Sensing [57.609801041296095]
視覚言語モデル(VLM)はリモートセンシングの強力なツールとして登場しつつある。
衛星画像におけるVLMに基づく視覚的グラウンド化を,新しい構造的局所化機構を提案することで促進する。
論文 参考訳(メタデータ) (2025-12-09T18:15:43Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-30T03:14:27Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - Change-Agent: Towards Interactive Comprehensive Remote Sensing Change Interpretation and Analysis [28.3763053922823]
現在のRSICI技術は、変更検出と変更キャプションを包含しており、それぞれに包括的な解釈を提供する限界がある。
本稿では,ユーザ指示に従って包括的な変更解釈を実現するインタラクティブなChange-Agentを提案する。
Change-Agentは、マルチレベル変化解釈(MCI)モデルを目として、大きな言語モデル(LLM)を脳として統合する。
論文 参考訳(メタデータ) (2024-03-28T17:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。