論文の概要: LLM-Powered Flood Depth Estimation from Social Media Imagery: A Vision-Language Model Framework with Mechanistic Interpretability for Transportation Resilience
- arxiv url: http://arxiv.org/abs/2603.17108v1
- Date: Tue, 17 Mar 2026 19:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.379272
- Title: LLM-Powered Flood Depth Estimation from Social Media Imagery: A Vision-Language Model Framework with Mechanistic Interpretability for Transportation Resilience
- Title(参考訳): ソーシャルメディア画像からのLLMを用いた洪水深度推定:輸送抵抗に対する機械的解釈性を備えた視覚言語モデルフレームワーク
- Authors: Nafis Fuad, Xiaodong Qian,
- Abstract要約: FloodLlamaは、単一ストリートレベルの画像から連続的な洪水深度を推定するための微調整された視覚言語モデルである。
TikTokベースのデータパイプラインは、デトロイトの676の注釈付き洪水フレームで検証されており、リアルタイムのクラウドソースによる洪水検知の可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urban flooding poses an escalating threat to transportation network continuity, yet no operational system currently provides real-time, street-level flood depth information at the centimeter resolution required for dynamic routing, electric vehicle (EV) safety, and autonomous vehicle (AV) operations. This study presents FloodLlama, a fine-tuned open-source vision-language model (VLM) for continuous flood depth estimation from single street-level images, supported by a multimodal sensing pipeline using TikTok data. A synthetic dataset of approximately 190000 images was generated, covering seven vehicle types, four weather conditions, and 41 depth levels (0-40 cm at 1 cm resolution). Progressive curriculum training enabled coarse-to-fine learning, while LLaMA 3.2-11B Vision was fine-tuned using QLoRA. Evaluation across 34797 trials reveals a depth-dependent prompt effect: simple prompts perform better for shallow flooding, whereas chain-of-thought (CoT) reasoning improves performance at greater depths. FloodLlama achieves a mean absolute error (MAE) below 0.97 cm and Acc@5cm above 93.7% for deep flooding, exceeding 96.8% for shallow depths. A five-phase mechanistic interpretability framework identifies layer L23 as the critical depth-encoding transition and enables selective fine-tuning that reduces trainable parameters by 76-80% while maintaining accuracy. The Tier 3 configuration achieves 98.62% accuracy on real-world data and shows strong robustness under visual occlusion. A TikTok-based data pipeline, validated on 676 annotated flood frames from Detroit, demonstrates the feasibility of real-time, crowd-sourced flood sensing. The proposed framework provides a scalable, infrastructure-free solution with direct implications for EV safety, AV deployment, and resilient transportation management.
- Abstract(参考訳): 都市浸水は交通網の連続性に対するエスカレートな脅威となるが、動的なルーティング、電気自動車(EV)の安全性、自動運転車(AV)の運用に必要な、リアルタイムで道路レベルの浸水深度情報を提供する運用システムはない。
本研究では,TikTokデータを用いたマルチモーダルセンシングパイプラインによって支援された,単一ストリートレベルの画像から連続的な洪水深度推定を行う,細調整のオープンソースビジョン言語モデル(VLM)であるFloodLlamaを提案する。
約190000画像の合成データセットが作成され、7種類の車両種、4つの気象条件、41の深度(0-40cm、解像度1cm)をカバーした。
プログレッシブカリキュラムトレーニングは粗大な学習を可能にし、LLaMA 3.2-11B VisionはQLoRAを使用して微調整された。
単純なプロンプトは浅い浸水に対してより良い性能を発揮するが、チェーン・オブ・シント(CoT)推論はより深い深さで性能を向上させる。
FloodLlamaは平均絶対誤差(MAE)が0.97cm以下、Acc@5cmが93.7%以上、浅い深さが96.8%を超えている。
五相機械的解釈可能性フレームワークは、層L23を臨界深度エンコード遷移とし、精度を維持しながらトレーニング可能なパラメータを76〜80%削減する選択的微調整を可能にする。
Tier 3の構成は現実世界のデータで98.62%の精度を実現し、視覚的閉塞下では強い堅牢性を示す。
TikTokベースのデータパイプラインは、デトロイトの676の注釈付き洪水フレームで検証されており、リアルタイムのクラウドソースによる洪水検知の可能性を示している。
提案するフレームワークは、EV安全性、AVデプロイメント、レジリエンスな輸送管理に直接的な影響を与える、スケーラブルでインフラストラクチャフリーなソリューションを提供する。
関連論文リスト
- Network Level Evaluation of Hangup Susceptibility of HRGCs using Deep Learning and Sensing Techniques: A Goal Towards Safer Future [0.43748379918040853]
ステッププロファイルのハイウェイ鉄道グレードクロスは、低地上クリアランスの車両に安全上の危険をもたらす。
本研究は,HRGCのハングアップ感受性のネットワークレベル評価のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2025-12-14T20:25:42Z) - Floorplan2Guide: LLM-Guided Floorplan Parsing for BLV Indoor Navigation [4.3114959617830015]
そこで本研究では,フロアプランをナビゲーション可能な知識グラフに変換し,人間の読みやすいナビゲーション命令を生成する新しいナビゲーション手法を提案する。
Floorplan2Guideは、大規模言語モデル(LLM)を統合し、アーキテクチャレイアウトから空間情報を抽出する。
シミュレーションおよび実世界評価におけるゼロショット学習と比較して,少数ショット学習ではナビゲーション精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-12-13T04:49:26Z) - SAVANT: Semantic Analysis with Vision-Augmented Anomaly deTection [6.806105013817923]
SAVANTは、異常運転シナリオの検出において高精度なリコールを実現する構造化推論フレームワークである。
9,640以上の実世界の画像を高精度にラベル付けすることで、SAVANTは異常検出における重要なデータ不足問題に対処する。
論文 参考訳(メタデータ) (2025-10-20T19:14:29Z) - FloodVision: Urban Flood Depth Estimation Using Foundation Vision-Language Models and Domain Knowledge Graph [1.0323063834827415]
FloodVisionはゼロショットフレームワークであり、基礎的なビジョン言語モデルであるGPT-4oと構造化されたドメイン知識グラフのセマンティック推論能力を組み合わせたものである。
FloodVisionは8.17cmの平均的な絶対誤差を達成し、GPT-4oベースラインの10.28cmを20.5%削減し、CNNベースの手法を上回りました。
論文 参考訳(メタデータ) (2025-09-05T03:05:18Z) - Learning Underwater Active Perception in Simulation [51.205673783866146]
タービディティは、検査された構造物の正確な視覚的記録を阻止する可能性があるため、ミッション全体を危険に晒す可能性がある。
従来の研究は、濁度や後方散乱に適応する手法を導入してきた。
本研究では, 広範囲の水環境下での高品質な画像取得を実現するための, 単純かつ効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-23T06:48:38Z) - Advancing Autonomous Vehicle Intelligence: Deep Learning and Multimodal LLM for Traffic Sign Recognition and Robust Lane Detection [11.743721109110792]
本稿では,先進的な深層学習技術とマルチモーダル大規模言語モデル(MLLM)を組み合わせた総合的な道路認識手法を提案する。
交通信号認識では,ResNet-50,Yv8,RT-DETRを評価し,ResNet-50で99.8%,YOLOv8で98.0%,RT-DETRで96.6%の精度を達成した。
車線検出のために,曲線フィッティングにより強化されたCNNに基づくセグメンテーション手法を提案する。
論文 参考訳(メタデータ) (2025-03-08T19:12:36Z) - LanEvil: Benchmarking the Robustness of Lane Detection to Environmental Illusions [61.87108000328186]
レーン検出(LD)は自律走行システムにおいて不可欠な要素であり、適応型クルーズ制御や自動車線センターなどの基本的な機能を提供している。
既存のLDベンチマークは主に、環境錯覚に対するLDモデルの堅牢性を無視し、一般的なケースを評価することに焦点を当てている。
本稿では、LDに対する環境錯覚による潜在的な脅威について検討し、LanEvilの最初の総合ベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-03T02:12:27Z) - Improving Underwater Visual Tracking With a Large Scale Dataset and
Image Enhancement [70.2429155741593]
本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカ拡張手法を提案する。
水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。
本研究では,追尾品質の向上に特化して設計された水中画像強調アルゴリズムを提案する。
この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。
論文 参考訳(メタデータ) (2023-08-30T07:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。