論文の概要: From YOLO to VLMs: Advancing Zero-Shot and Few-Shot Detection of Wastewater Treatment Plants Using Satellite Imagery in MENA Region
- arxiv url: http://arxiv.org/abs/2512.14312v1
- Date: Tue, 16 Dec 2025 11:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.700089
- Title: From YOLO to VLMs: Advancing Zero-Shot and Few-Shot Detection of Wastewater Treatment Plants Using Satellite Imagery in MENA Region
- Title(参考訳): YOLOからVLMへ:MENA領域における衛星画像を用いた廃水処理プラントのゼロショットとフイショット検出の促進
- Authors: Akila Premarathna, Kanishka Hewageegana, Garcia Andarcia Mariangel,
- Abstract要約: 中東・北アフリカ地域(MENA)では、廃水処理プラント(WWTP)の需要が高い。
YOLOv8セグメンテーションのような従来の方法は手動ラベリングを必要とする。
本研究では, WWTPを識別するために, ゼロショットストリームと少数ショットストリームに分割した, VLM比較のための構造化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In regions of the Middle East and North Africa (MENA), there is a high demand for wastewater treatment plants (WWTPs), crucial for sustainable water management. Precise identification of WWTPs from satellite images enables environmental monitoring. Traditional methods like YOLOv8 segmentation require extensive manual labeling. But studies indicate that vision-language models (VLMs) are an efficient alternative to achieving equivalent or superior results through inherent reasoning and annotation. This study presents a structured methodology for VLM comparison, divided into zero-shot and few-shot streams specifically to identify WWTPs. The YOLOv8 was trained on a governmental dataset of 83,566 high-resolution satellite images from Egypt, Saudi Arabia, and UAE: ~85% WWTPs (positives), 15% non-WWTPs (negatives). Evaluated VLMs include LLaMA 3.2 Vision, Qwen 2.5 VL, DeepSeek-VL2, Gemma 3, Gemini, and Pixtral 12B (Mistral), used to identify WWTP components such as circular/rectangular tanks, aeration basins and distinguish confounders via expert prompts producing JSON outputs with confidence and descriptions. The dataset comprises 1,207 validated WWTP locations (198 UAE, 354 KSA, 655 Egypt) and equal non-WWTP sites from field/AI data, as 600mx600m Geo-TIFF images (Zoom 18, EPSG:4326). Zero-shot evaluations on WWTP images showed several VLMs out-performing YOLOv8's true positive rate, with Gemma-3 highest. Results confirm that VLMs, particularly with zero-shot, can replace YOLOv8 for efficient, annotation-free WWTP classification, enabling scalable remote sensing.
- Abstract(参考訳): 中東・北アフリカ地域(MENA)では, 持続可能な水管理に不可欠な排水処理プラント(WWTP)の需要が高まっている。
衛星画像からのWWTPの正確な識別は環境モニタリングを可能にする。
YOLOv8セグメンテーションのような従来の手法は、広範囲な手動ラベリングを必要とする。
しかし、研究では、視覚言語モデル(VLM)が、固有の推論とアノテーションによって同等または優れた結果を得るための効率的な代替手段であることを示している。
本研究は, WWTPを識別するために, ゼロショットストリームと少数ショットストリームに分割した, VLM比較のための構造化手法を提案する。
YOLOv8は、エジプト、サウジアラビア、アラブ首長国連邦の高解像度衛星画像83,566枚で、約85%のWWTP(正)、15%の非WWTP(負)で訓練された。
評価されたVLMには、LLaMA 3.2 Vision、Qwen 2.5 VL、DeepSeek-VL2、Gemma 3、Gemini、Pixtral 12B(ミストラル)があり、これは、円形/矩形タンク、エアレーション盆地などのWWTPコンポーネントを識別し、専門家のプロンプトでJSON出力を生成する。
このデータセットは、1,207の検証済みWWTP位置(UAE, 354 KSA, 655 Egypt)とフィールド/AIデータから、600mx600mのGeo-TIFF画像(Zoom 18, EPSG:4326)から成り立っている。
WWTP画像のゼロショット評価では、複数のVLMがYOLOv8の真の陽性率を上回っ、Gemma-3が最高であった。
結果は、VLM、特にゼロショットでは、YOLOv8を効率的なアノテーションなしのWWTP分類に置き換え、スケーラブルなリモートセンシングを可能にすることを確認した。
関連論文リスト
- Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - A Comparative Benchmark of Real-time Detectors for Blueberry Detection towards Precision Orchard Management [2.667064587590596]
本研究では,先進的リアルタイム物体検出器の比較ベンチマーク解析を行った。
このデータセットは、2022-2023シーズンにスマートフォンで収集された671枚の天蓋画像からなる。
YOLOモデルのうち、YOLOv12mはmAP@50の93.3%で最高の精度を達成した。
論文 参考訳(メタデータ) (2025-09-24T21:42:24Z) - A Comparative Study of YOLOv8 to YOLOv11 Performance in Underwater Vision Tasks [0.0]
YOLOファミリーの1段階検出器は、単一の低遅延ネットワークで局所化と分類を融合するため、魅力的である。
比較操作条件にまたがる2つのデータセットをキュレートする。コーラル病セット(4,480イメージ、18クラス)と魚種セット(7,500イメージ、20クラス)である。
YOLOvs, YOLOv9-s, YOLOv10-s, YOLOv11-sを同一のハイパー参照でトレーニングし, 精度, リコール, mAP50, mAP50-95, 画像毎の推論時間, フレーム毎秒(FPS)を評価する。
論文 参考訳(メタデータ) (2025-09-16T05:12:59Z) - Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery [16.921090589233064]
Landsat30-AU(ランドサット30-AU)は、オーストラリア上空の4つのランドサット衛星によって収集された30メートルの解像度画像から構築された視覚言語データセットである。
データセットには2つのコンポーネントが含まれている: Landsat30-AU-Cap、イメージキャプチャペア196,262ドル、Landsat30-AU-VQA。
論文 参考訳(メタデータ) (2025-08-05T06:16:46Z) - BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models [37.699828966838986]
BridgeVLAは、3D入力を複数の2D画像に投影し、VLMバックボーンとの入力アライメントを保証する新しい3D VLAモデルである。
アクション予測に2Dヒートマップを使用し、一貫した2次元画像空間内の入力空間と出力空間を統一する。
10以上のタスクで96.8%の成功率を達成することができ、1タスクにつき3つの軌道しか持たず、異常なサンプル効率を誇示している。
論文 参考訳(メタデータ) (2025-06-09T17:36:34Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - YOLOv3 with Spatial Pyramid Pooling for Object Detection with Unmanned
Aerial Vehicles [0.0]
我々は,背骨ダークネット53の端に空間ピラミッドポーリング層を追加することで,一段検出器YOLOv3の性能向上を目指す。
また, YOLOv3法の異なるバージョンについて評価を行った。
論文 参考訳(メタデータ) (2023-05-21T04:41:52Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。