論文の概要: DamageArbiter: A CLIP-Enhanced Multimodal Arbitration Framework for Hurricane Damage Assessment from Street-View Imagery
- arxiv url: http://arxiv.org/abs/2603.14837v1
- Date: Mon, 16 Mar 2026 05:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.068141
- Title: DamageArbiter: A CLIP-Enhanced Multimodal Arbitration Framework for Hurricane Damage Assessment from Street-View Imagery
- Title(参考訳): damageArbiter:ストリートビュー画像によるハリケーン被害評価のためのCLIP強化マルチモーダルアロケーションフレームワーク
- Authors: Yifan Yang, Lei Zou, Wenjing Gong, Kani Fu, Zongrong Li, Siqin Wang, Bing Zhou, Heng Cai, Hao Tian,
- Abstract要約: 本研究では,CLIP(Contrastive Language- Image Pre-Training)モデルを用いたマルチモーダル不一致駆動のアロケーションフレームワークであるAussmentArbiterを提案する。
damageArbiterleverages the complementary strengths of unimodal and multimodal models, using a lightweight logistic regression meta-classifier to arbitrate case of disagreement。
損傷アービターは74.33%(ViT-B/32、画像のみ)の精度を82.79%に改善し、80%の精度閾値を超え、最強のベースラインモデルと比べて8.46%の絶対的な改善を実現した。
- 参考スコア(独自算出の注目度): 12.916687638980008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing street-view imagery with computer vision models for rapid, hyperlocal damage assessment is becoming popular and valuable in emergency response and recovery, but traditional models often act like black boxes, lacking interpretability and reliability. This study proposes a multimodal disagreement-driven Arbitration framework powered by Contrastive Language-Image Pre-training (CLIP) models, DamageArbiter, to improve the accuracy, interpretability, and robustness of damage estimation from street-view imagery. DamageArbiter leverages the complementary strengths of unimodal and multimodal models, employing a lightweight logistic regression meta-classifier to arbitrate cases of disagreement. Using 2,556 post-disaster street-view images, paired with both manually generated and large language model (LLM)-generated text descriptions, we systematically compared the performance of unimodal models (including image-only and text-only models), multimodal CLIP-based models, and DamageArbiter. Notably, DamageArbiter improved the accuracy from 74.33% (ViT-B/32, image-only) to 82.79%, surpassing the 80% accuracy threshold and achieving an absolute improvement of 8.46% compared to the strongest baseline model. Beyond improvements in overall accuracy, compared to visual models relying solely on images, DamageArbiter, through arbitration of discrepancies between unimodal and multimodal predictions, mitigates common overconfidence errors in visual models, especially in situations where disaster visual cues are ambiguous or subject to interference, reducing overconfidence but incorrect predictions. We further mapped and analyzed geo-referenced predictions and misclassifications to compare model performance across locations. Overall, this work advances street-view-based disaster assessment from coarse severity classification toward a more reliable and interpretable framework.
- Abstract(参考訳): 高速で局所的な損傷評価のためのコンピュータビジョンモデルを用いたストリートビュー画像の解析は、緊急対応と回復に人気があり、価値のあるものになっているが、伝統的なモデルは、しばしばブラックボックスのように振る舞うが、解釈可能性や信頼性に欠ける。
本研究では,ストリートビュー画像からの損傷推定の精度,解釈可能性,堅牢性を改善するために,CLIPモデルを用いたマルチモーダル不一致駆動アロケーションフレームワークを提案する。
damageArbiterは、不一致の事例を仲裁するために軽量なロジスティック回帰メタ分類器を用いて、単調モデルとマルチモーダルモデルの相補的な強みを利用する。
2,556個のストリートビュー画像を用いて,手動で生成した言語モデルと大規模言語モデル(LLM)の生成したテキスト記述を組み合わせ,画像のみとテキストのみのモデルを含む),マルチモーダルCLIPモデル,障害Arbiterの性能を体系的に比較した。
特に、ダメージアービターは74.33%(ViT-B/32、画像のみ)の精度を82.79%に改善し、80%の精度閾値を超え、最強のベースラインモデルと比べて8.46%の絶対的な改善を実現した。
画像のみに依存する視覚モデルに比べて、全体的な精度の改善に加えて、ダメージアービターは、単調な予測とマルチモーダルな予測の相違を仲裁することで、視覚モデルにおける一般的な過信エラーを緩和する。
さらに、地理的参照予測と誤分類をマッピングし、分析し、地域間でのモデル性能を比較した。
本研究は,大雑把な重度分類から,より信頼性が高く解釈可能な枠組みへと,ストリートビューに基づく災害評価を推し進める。
関連論文リスト
- HERS: Hidden-Pattern Expert Learning for Risk-Specific Vehicle Damage Adaptation in Diffusion Models [0.0]
テキスト・トゥ・イメージ(T2I)拡散モデルの最近の進歩により、車両の損傷の現実的な合成が可能になった。
クラッシュのような画像を生成する能力は、真のデータと合成データの境界に挑戦する。
本研究では,拡散損傷画像の忠実度,可制御性,ドメインアライメントを改善するためのフレームワークHERSを提案する。
論文 参考訳(メタデータ) (2026-01-29T10:30:07Z) - Bias Detection and Rotation-Robustness Mitigation in Vision-Language Models and Generative Image Models [0.0]
VLM(Vision-Language Models)と生成画像モデル(Generative Image Models)は、マルチモーダルタスクにおいて顕著なパフォーマンスを実現している。
本研究では、最先端のビジョン言語および生成モデルにおけるバイアス伝搬とロバスト性について検討する。
本稿では,データ拡張,表現アライメント,モデルレベルの正規化を併用した回転ロバスト緩和戦略を提案する。
論文 参考訳(メタデータ) (2026-01-09T00:36:11Z) - Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric [49.393713730706445]
汚損の堅牢性を評価するための識別サンプルを強調したベンチマークであるBench-Cを紹介する。
本稿では,ロバストネスアライメントスコア(RAS)を提案する。
論文 参考訳(メタデータ) (2025-11-24T12:07:56Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。
データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。
概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文 参考訳(メタデータ) (2023-06-26T13:06:34Z) - Deep Learning-Based Defect Classification and Detection in SEM Images [1.9206693386750882]
特に、異なるResNet、VGGNetアーキテクチャをバックボーンとして使用するRetinaNetモデルをトレーニングする。
そこで本研究では,異なるモデルからの出力予測を組み合わせることで,欠陥の分類と検出に優れた性能を実現するための選好に基づくアンサンブル戦略を提案する。
論文 参考訳(メタデータ) (2022-06-20T16:34:11Z) - Improving robustness against common corruptions with frequency biased
models [112.65717928060195]
目に見えない画像の腐敗は 驚くほど大きなパフォーマンス低下を引き起こします
画像の破損タイプは周波数スペクトルで異なる特性を持ち、ターゲットタイプのデータ拡張の恩恵を受けます。
畳み込み特徴マップの総変動(TV)を最小限に抑え、高周波堅牢性を高める新しい正規化方式を提案する。
論文 参考訳(メタデータ) (2021-03-30T10:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。