Fugu-MT 論文翻訳(概要): Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models

論文の概要: Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models

arxiv url: http://arxiv.org/abs/2605.08404v1
Date: Fri, 08 May 2026 19:10:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:49.618425
Title: Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models
Title（参考訳）: 大規模視覚モデルを用いたリモートセンシング画像からの環境推論
Authors: Dongdong Wang, Deepak Balakrishnan, Ravi Srinivasan, Shenhao Wang,
Abstract要約: 本研究では,スマートシティにおけるタスクにおける大規模言語モデル(LLM)の利用について検討する。中心となる考え方は、リモートセンシング画像を利用して構築された環境を特徴付けることである。マルチモーダル言語モデリングのための入力として,複数の空間スケールでのリモートセンシング画像について検討する。
参考スコア（独自算出の注目度）: 6.73690088264437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work investigates the use of large language models (LLMs) for tasks in smart cities. The core idea is to leverage remote sensing imagery to characterize the built environment, including design suggestions, constructability assessment, landuse patterns, and risk identification. We examine remote sensing imagery at multiple spatial scales as inputs for multimodal language modeling and evaluate their effects on built-environment-related reasoning. In addition, we compare state-of-the-art LLMs, including InternVL and Qwen, in terms of accuracy and reliability when generating built environment recommendations. The results demonstrate the potential of integrating remote sensing imagery with large language models to assist smart cities and decision-making.
Abstract（参考訳）: 本研究では,スマートシティにおけるタスクにおける大規模言語モデル(LLM)の利用について検討する。中心となる考え方は、リモートセンシング画像を利用して、設計提案、建設可能性評価、土地利用パターン、リスク識別など、構築された環境を特徴づけることである。マルチモーダル言語モデリングのための入力として,複数空間スケールでのリモートセンシング画像について検討し,その環境関連推論への影響を評価する。さらに、構築された環境レコメンデーションを生成する際の正確性と信頼性の観点から、InternVLやQwenを含む最先端のLLMを比較した。その結果、リモートセンシング画像と大言語モデルを統合することで、スマートシティと意思決定を支援する可能性が示された。

関連論文リスト

SATGround: A Spatially-Aware Approach for Visual Grounding in Remote Sensing [57.609801041296095]
視覚言語モデル(VLM)はリモートセンシングの強力なツールとして登場しつつある。衛星画像におけるVLMに基づく視覚的グラウンド化を,新しい構造的局所化機構を提案することで促進する。
論文参考訳（メタデータ） (2025-12-09T18:15:43Z)
Efficient Few-Shot Learning in Remote Sensing: Fusing Vision and Vision-Language Models [0.33985395340995606]
本研究では,視覚モデルと視覚言語モデルを組み合わせることで,リモートセンシングにおける画像解析の強化を図る。 YOLOとLLaVA、ChatGPT、GeminiといったVLMとの統合は、より正確で文脈的に認識された画像解釈を実現することを目的としている。その結果、航空機の検出とカウントの精度において、モデル全体で平均48.46%のMAE改善が見られた。
論文参考訳（メタデータ） (2025-10-15T18:19:48Z)
DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文参考訳（メタデータ） (2025-09-30T01:53:34Z)
Towards Understanding Visual Grounding in Visual Language Models [2.553589584067239]
ビジュアルグラウンドティング(Visual Grounding)とは、モデルがテキスト記述と一致する視覚入力内の領域を識別する能力である。現代汎用視覚言語モデル(VLM)研究の重要領域について概観する。
論文参考訳（メタデータ） (2025-09-12T15:33:49Z)
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文参考訳（メタデータ） (2025-05-29T17:59:38Z)
From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing [16.755590790629153]
本稿では,リモートセンシングにおけるマルチモーダル言語モデル(MLLM)の開発と応用について検討する。我々は、自然言語を用いて衛星画像の解釈と記述を行う能力に焦点をあてる。シーン記述、オブジェクト検出、変更検出、テキスト・ツー・イメージ検索、画像・ツー・テキスト生成、視覚的質問応答などの重要な応用について論じる。
論文参考訳（メタデータ） (2024-11-05T12:14:22Z)
RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。 RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文参考訳（メタデータ） (2024-04-03T12:06:01Z)
MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。 MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文参考訳（メタデータ） (2024-02-01T02:43:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。