論文の概要: Vision-Language Agents for Interactive Forest Change Analysis
- arxiv url: http://arxiv.org/abs/2601.04497v1
- Date: Thu, 08 Jan 2026 02:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.978478
- Title: Vision-Language Agents for Interactive Forest Change Analysis
- Title(参考訳): 対話型森林変動解析のための視覚言語エージェント
- Authors: James Brock, Ce Zhang, Nantheera Anantrasirichai,
- Abstract要約: 複数のRSICIタスクにまたがる自然言語クエリをサポートする林分変化解析エージェントを提案する。
提案システムは,LLMベースのオーケストレーションを用いたマルチレベル変化解釈(MCI)に基づく。
実験の結果、提案されたシステムmIoUとBLEU-4はフォレスト・チャンジのデータセットで67.10%と40.17%、LEVIR-MCI-Treesでは88.13%と34.41%であった。
- 参考スコア(独自算出の注目度): 8.37327492233826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern forest monitoring workflows increasingly benefit from the growing availability of high-resolution satellite imagery and advances in deep learning. Two persistent challenges in this context are accurate pixel-level change detection and meaningful semantic change captioning for complex forest dynamics. While large language models (LLMs) are being adapted for interactive data exploration, their integration with vision-language models (VLMs) for remote sensing image change interpretation (RSICI) remains underexplored. To address this gap, we introduce an LLM-driven agent for integrated forest change analysis that supports natural language querying across multiple RSICI tasks. The proposed system builds upon a multi-level change interpretation (MCI) vision-language backbone with LLM-based orchestration. To facilitate adaptation and evaluation in forest environments, we further introduce the Forest-Change dataset, which comprises bi-temporal satellite imagery, pixel-level change masks, and multi-granularity semantic change captions generated using a combination of human annotation and rule-based methods. Experimental results show that the proposed system achieves mIoU and BLEU-4 scores of 67.10% and 40.17% on the Forest-Change dataset, and 88.13% and 34.41% on LEVIR-MCI-Trees, a tree-focused subset of LEVIR-MCI benchmark for joint change detection and captioning. These results highlight the potential of interactive, LLM-driven RSICI systems to improve accessibility, interpretability, and efficiency of forest change analysis. All data and code are publicly available at https://github.com/JamesBrockUoB/ForestChat.
- Abstract(参考訳): 現代の森林モニタリングのワークフローは、高解像度の衛星画像とディープラーニングの進歩によってますます恩恵を受けている。
この文脈における2つの永続的な課題は、複雑な森林力学のための正確なピクセルレベルの変化検出と意味的な意味的変化キャプションである。
大規模言語モデル (LLM) はインタラクティブなデータ探索に応用されているが、リモートセンシング画像変化解釈 (RSICI) のための視覚言語モデル (VLM) との統合は未定である。
このギャップに対処するために、複数のRSICIタスクをまたいだ自然言語クエリをサポートする森林変動解析のためのLLM駆動エージェントを導入する。
提案システムは,LLMベースのオーケストレーションを用いたマルチレベル変化解釈(MCI)に基づく。
森林環境への適応と評価を容易にするため,両時間衛星画像,画素レベルの変更マスク,および人間のアノテーションとルールベースの手法を組み合わせた多粒度意味変化キャプションを含むフォレスト・チャンジデータセットについても紹介する。
実験結果から,LEVIR-MCI-Trees では mIoU と BLEU-4 が67.10%,40.17%,LEVIR-MCI-Trees では88.13%,34.41% のスコアが得られた。
これらの結果は,森林変動解析のアクセシビリティ,解釈可能性,効率を向上させるための対話型LLM駆動型RSICIシステムの可能性を強調した。
すべてのデータとコードはhttps://github.com/JamesBrockUoB/ForestChat.comで公開されている。
関連論文リスト
- Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Towards Comprehensive Interactive Change Understanding in Remote Sensing: A Large-scale Dataset and Dual-granularity Enhanced VLM [36.840534360955175]
ChangeIMTIは、変更キャプション、バイナリ変更分類、変更カウント、変更ローカライゼーションのための大規模な対話型マルチタスク命令データセットである。
両時間リモートセンシング画像に対して、二重粒度認識を用いた視覚誘導型視覚言語モデル(ChangeVG)を提案する。
本手法は, 総合的なS*m測定値において, セマンティックCCを1.39ポイント上回る最強の手法である。
論文 参考訳(メタデータ) (2025-09-27T04:28:42Z) - DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-30T03:14:27Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Change-Agent: Towards Interactive Comprehensive Remote Sensing Change Interpretation and Analysis [28.3763053922823]
現在のRSICI技術は、変更検出と変更キャプションを包含しており、それぞれに包括的な解釈を提供する限界がある。
本稿では,ユーザ指示に従って包括的な変更解釈を実現するインタラクティブなChange-Agentを提案する。
Change-Agentは、マルチレベル変化解釈(MCI)モデルを目として、大きな言語モデル(LLM)を脳として統合する。
論文 参考訳(メタデータ) (2024-03-28T17:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。