論文の概要: From Drone Imagery to Livability Mapping: AI-powered Environment Perception in Rural China
- arxiv url: http://arxiv.org/abs/2508.21738v2
- Date: Mon, 03 Nov 2025 03:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:22.207496
- Title: From Drone Imagery to Livability Mapping: AI-powered Environment Perception in Rural China
- Title(参考訳): ドローン画像からリビビリティマッピングへ:中国農村部におけるAIを活用した環境認識
- Authors: Weihuan Deng, Yaofu Huang, Luan Chen, Xun Li, Yu Gu, Yao Yao,
- Abstract要約: VLCR(Vision-Language Contrastive Ranking Framework)は、中国における農村の可視性評価のためのフレームワークである。
このフレームワークは、マルチモーダルな大規模言語モデル(MLLM)を誘導し、ドローン写真から生活の質と生態的居住性に関連する視覚的特徴を特定するためのチェーン・オブ・シークレット戦略を採用している。
提案手法はスピアマンフットルル距離0.74で性能が向上し,市販のMLLMよりも0.1%向上した。
- 参考スコア(独自算出の注目度): 9.034240130900802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high cost of acquiring rural street view images has constrained comprehensive environmental perception in rural areas. Drone photographs, with their advantages of easy acquisition, broad coverage, and high spatial resolution, offer a viable approach for large-scale rural environmental perception. However, a systematic methodology for identifying key environmental elements from drone photographs and quantifying their impact on environmental perception remains lacking. To address this gap, a Vision-Language Contrastive Ranking Framework (VLCR) is designed for rural livability assessment in China. The framework employs chain-of-thought prompting strategies to guide multimodal large language models (MLLMs) in identifying visual features related to quality of life and ecological habitability from drone photographs. Subsequently, to address the instability in pairwise village comparison, a text description-constrained drone photograph comparison strategy is proposed. Finally, to overcome the efficiency bottleneck in nationwide pairwise village comparisons, an innovation ranking algorithm based on binary search interpolation is developed, which reduces the number of comparisons through automated selection of comparison targets. The proposed framework achieves superior performance with a Spearman Footrule distance of 0.74, outperforming mainstream commercial MLLMs by approximately 0.1. Moreover, the mechanism of concurrent comparison and ranking demonstrates a threefold enhancement in computational efficiency. Our framework has achieved data innovation and methodological breakthroughs in village livability assessment, providing strong support for large-scale village livability analysis. Keywords: Drone photographs, Environmental perception, Rural livability assessment, Multimodal large language models, Chain-of-thought prompting.
- Abstract(参考訳): 農村部における景観画像取得の高コスト化は、農村部における総合的な環境認識を制約している。
ドローン写真は、容易に取得し、広い範囲をカバーし、空間分解能が高いという利点があり、大規模な農村環境認識に有効なアプローチを提供する。
しかし、ドローン写真から重要な環境要素を識別し、その環境知覚に与える影響を定量化するための体系的手法は、いまだに欠如している。
このギャップに対処するため、中国における農村自由度評価のためにVLCR(Vision-Language Contrastive Ranking Framework)が設計されている。
このフレームワークは、マルチモーダルな大規模言語モデル(MLLM)を誘導し、ドローン写真から生活の質と生態的居住性に関連する視覚的特徴を特定するためのチェーン・オブ・シークレット戦略を採用している。
その後,両村間比較における不安定性に対処するため,テキスト記述制約付きドローン写真比較戦略を提案する。
最後に,全国の対村比較における効率のボトルネックを克服するため,二分探索補間に基づくイノベーションランキングアルゴリズムを開発し,比較対象の自動選択による比較数を削減した。
提案手法は,スピアマンフットルル距離0.74で性能が向上し,市販のMLLMを0.1%程度上回った。
さらに、コンカレント・コンカレント・コンカレント・コンカレント・コンカレント・コンカレント・ランキングのメカニズムは、計算効率の3倍向上を示す。
我々の枠組みは,村の生活可能性評価におけるデータ革新と方法論的ブレークスルーを達成し,大規模村の生活可能性分析を強力に支援している。
キーワード:ドローン写真、環境認識、農村自由度評価、マルチモーダルな大言語モデル、思考の連鎖。
関連論文リスト
- Image Realness Assessment and Localization with Multimodal Features [3.1415249818332813]
AI生成画像の知覚現実性を定量化する信頼性の高い手法は、実用化と、生成AIのフォトリアリズム向上に不可欠である。
本稿では,AI生成画像の客観的現実性評価と局所的不整合同定を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-16T17:42:51Z) - Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。
RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。
我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文 参考訳(メタデータ) (2025-09-11T06:15:52Z) - Interpretable Multimodal Framework for Human-Centered Street Assessment: Integrating Visual-Language Models for Perceptual Urban Diagnostics [0.0]
本稿では,新しいマルチモーダルストリート評価フレームワーク(MSEF)を紹介する。
パラメータ効率適応のためにLoRAとP-Tuning v2を用いてフレームワークを微調整する。
このモデルは、客観的特徴に関するF1スコアの0.84と、集約された居住者の知覚との89.3%の一致を達成している。
論文 参考訳(メタデータ) (2025-06-05T14:34:04Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Beyond surveys: A High-Precision Wealth Inequality Mapping of China's Rural Households Derived from Satellite and Street View Imageries [5.030899307170801]
本稿は、農村部における「スキー」なリモートセンシング画像と「地上」な街路ビュー画像を統合し、きめ細かい「計算可能な」技術経路を構築することを目的とする。
論文 参考訳(メタデータ) (2025-02-11T09:36:25Z) - Robust Disaster Assessment from Aerial Imagery Using Text-to-Image Synthetic Data [66.49494950674402]
航空画像からの損傷評価のタスクのための大規模合成監視を作成する際に,新たなテキスト・画像生成モデルを活用する。
低リソース領域から何千ものポストディスアスター画像を生成するために、効率的でスケーラブルなパイプラインを構築しています。
我々は,xBDおよびSKAI画像のクロスジオグラフィー領域転送設定におけるフレームワークの強度を,単一ソースとマルチソースの両方で検証する。
論文 参考訳(メタデータ) (2024-05-22T16:07:05Z) - Granularity at Scale: Estimating Neighborhood Socioeconomic Indicators
from High-Resolution Orthographic Imagery and Hybrid Learning [1.8369448205408005]
オーバーヘッド画像は、コミュニティ情報が不足しているギャップを埋めるのに役立つ。
機械学習とコンピュータビジョンの最近の進歩により、画像データのパターンから素早く特徴を抽出し、検出することが可能になった。
本研究では, 人口密度, 中央値世帯所得, 教育達成率の2つのアプローチ, 教師付き畳み込みニューラルネットワークと半教師付きクラスタリングについて検討する。
論文 参考訳(メタデータ) (2023-09-28T19:30:26Z) - Graph-based Village Level Poverty Identification [52.12744462605759]
Webインフラストラクチャとそのモデリングツールの開発は、貧しい村を識別するための新しいアプローチを提供する。
地理的距離を通して村の接続をグラフとしてモデル化することにより,村の貧困状況とグラフトポロジ的位置との相関関係を示す。
貧しい村を識別する最初のグラフベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T06:58:40Z) - Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery [19.93324644519412]
土地被覆の特徴の特定における都市と農村の格差のリスクを考察する。
本稿では,畳み込みニューラルネットワークモデルの多レベル潜在空間を非バイアス化する手法として,コントラッシブラーニングを用いた高密度表現(FairDCL)を提案する。
得られた画像表現は、下流の都市と農村の予測格差を軽減し、現実の衛星画像の最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-16T04:59:46Z) - Combining deep learning and crowdsourcing geo-images to predict housing
quality in rural China [20.16424972411847]
住宅の質は、地域の富、安全保障、健康にとって不可欠な指標である。
大規模な農村画像を収集し、利用者に住宅の質を大規模に評価するよう依頼する。
クラウドソーシング型農村画像に基づく住宅品質の自動的・効率的予測のためのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-15T03:58:03Z) - IS-COUNT: Large-scale Object Counting from Satellite Images with
Covariate-based Importance Sampling [90.97859312029615]
本研究では,大規模地形におけるオブジェクト数統計をサンプリングによって推定する手法を提案する。
提案手法は,米国とアフリカ,ケニアの自動車,バングラデシュのレンガキルン,米国のスイミングプールの建物数の推定において,高い性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-12-16T18:59:29Z) - Potato Crop Stress Identification in Aerial Images using Deep
Learning-based Object Detection [60.83360138070649]
本稿では, 深層ニューラルネットワークを用いたジャガイモの空中画像解析手法を提案する。
主な目的は、植物レベルでの健康作物とストレス作物の自動空間認識を実証することである。
実験により、フィールド画像中の健康植物とストレス植物を識別し、平均Dice係数0.74を達成できることを示した。
論文 参考訳(メタデータ) (2021-06-14T21:57:40Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z) - Facebook Ads as a Demographic Tool to Measure the Urban-Rural Divide [6.61600499731972]
われわれは、Facebookの広告プラットフォームの有用性について検討する。
我々は、Facebookが生み出す人口統計が、時間とともに不安定に陥り、人口の少ない自治体が不完全な範囲をカバーしていることを示す。
公的な国勢調査データを用いて、我々のアプローチを評価し、教育の達成と収入の観点から、既知の重要な都市と農村の分断を確認した。
論文 参考訳(メタデータ) (2020-02-26T17:19:24Z) - Generating Interpretable Poverty Maps using Object Detection in
Satellite Images [80.35540308137043]
衛星画像に物体検出装置を適用することにより、局所レベルでの貧困を正確に予測するための解釈可能な計算手法を実証する。
対象物の重み付けを特徴として、ウガンダの村レベルの貧困を予測する0.539 Pearson's r2を達成し、既存の(解釈不可能でない)ベンチマークよりも31%改善した。
論文 参考訳(メタデータ) (2020-02-05T02:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。