論文の概要: VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment
- arxiv url: http://arxiv.org/abs/2509.21609v1
- Date: Thu, 25 Sep 2025 21:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.028769
- Title: VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment
- Title(参考訳): VLCE:災害評価における画像記述のための知識強化フレームワーク
- Authors: Md. Mahfuzur Rahman, Kishor Datta Gupta, Marufa Kamal, Fahad Rahman, Sunzida Siddique, Ahmed Rafi Hasan, Mohd Ariful Haque, Roy George,
- Abstract要約: 本稿では,視覚言語キャプション・エンハンサー(VLCE)を導入し,災害画像の包括的,文脈的にインフォームドされた説明を作成する。
VLCEでは、XBDデータセットのEuroSat衛星画像に事前トレーニングされたResNet50バックボーンを備えたCNN-LSTMモデルと、RescueNetデータセットのUAV画像に事前トレーニングされたViTモデルという、デュアルアーキテクチャのアプローチを採用している。
セマンティックアライメントにはCLIPScore,キャプション情報にはInfoMetICを用いて,主要な視覚言語モデル(LLaVAとQwenVL)と比較してVLCEを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Immediate damage assessment is essential after natural catastrophes; yet, conventional hand evaluation techniques are sluggish and perilous. Although satellite and unmanned aerial vehicle (UAV) photos offer extensive perspectives of impacted regions, current computer vision methodologies generally yield just classification labels or segmentation masks, so constraining their capacity to deliver a thorough situational comprehension. We introduce the Vision Language Caption Enhancer (VLCE), a multimodal system designed to produce comprehensive, contextually-informed explanations of disaster imagery. VLCE employs a dual-architecture approach: a CNN-LSTM model with a ResNet50 backbone pretrained on EuroSat satellite imagery for the xBD dataset, and a Vision Transformer (ViT) model pretrained on UAV pictures for the RescueNet dataset. Both systems utilize external semantic knowledge from ConceptNet and WordNet to expand vocabulary coverage and improve description accuracy. We assess VLCE in comparison to leading vision-language models (LLaVA and QwenVL) utilizing CLIPScore for semantic alignment and InfoMetIC for caption informativeness. Experimental findings indicate that VLCE markedly surpasses baseline models, attaining a maximum of 95.33% on InfoMetIC while preserving competitive semantic alignment. Our dual-architecture system demonstrates significant potential for improving disaster damage assessment by automating the production of actionable, information-dense descriptions from satellite and drone photos.
- Abstract(参考訳): 自然災害後の即時損傷評価は必須であるが,従来の手指評価技術は緩やかで危険である。
衛星写真と無人航空機写真(UAV)は影響地域を広範囲に捉えたものの、現在のコンピュータビジョンの方法論は一般的に分類ラベルやセグメンテーションマスクのみを生成するため、完全な状況理解を提供する能力は制限される。
本稿では,災害画像の包括的かつ文脈的にインフォームドされた説明を生成するためのマルチモーダルシステムであるVision Language Caption Enhancer (VLCE)を紹介する。
VLCEでは、XBDデータセットのEuroSat衛星画像に事前トレーニングされたResNet50バックボーンを備えたCNN-LSTMモデルと、RescueNetデータセットのUAV画像に事前トレーニングされたViTモデルという、デュアルアーキテクチャのアプローチを採用している。
どちらのシステムも、ConceptNetとWordNetの外部意味知識を利用して語彙のカバレッジを拡大し、記述精度を向上させる。
セマンティックアライメントにはCLIPScore,キャプション情報にはInfoMetICを用いて,主要な視覚言語モデル(LLaVAとQwenVL)と比較してVLCEを評価する。
実験の結果、VLCEは、競争力のあるセマンティックアライメントを維持しながら、InfoMetIC上で最大95.33%のベースラインモデルを上回ることが示されている。
本システムでは,衛星写真やドローン写真からの行動可能・情報深度記述の自動作成により,災害被害評価を向上する可能性を示す。
関連論文リスト
- Multi-step feature fusion for natural disaster damage assessment on satellite images [0.0]
複数のネットワークレベルで機能融合を行う新しい畳み込みニューラルネットワーク(CNN)モジュールを導入する。
イメージペアの分析にCNNモデルを適用するために、追加のネットワーク要素であるFuse Moduleが提案された。
視覚変換器モデルの精度は3ポイント以上向上した。
論文 参考訳(メタデータ) (2024-10-29T09:47:32Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - EVE: Efficient Vision-Language Pre-training with Masked Prediction and
Modality-Aware MoE [66.48689706116808]
効率的なビジョン・ランガグ(Efficient Vision-languagE)は、1つの統合された事前訓練タスクによってのみ事前訓練された1つの統合マルチモーダルトランスである。
Eveは、Modality-aware sparse Mixture-of-Expertsと統合された共有トランスフォーマーネットワーク内の視覚と言語をエンコードする。
Eveは、視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-08-23T07:36:30Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Improving Emergency Response during Hurricane Season using Computer
Vision [0.06882042556551608]
我々は,コンピュータビジョン(CV),内陸洪水予知,被害評価,データ可視化といった最新の技術を組み込んだ危機対応・管理のためのフレームワークを開発した。
我々のコンピュータビジョンモデルは、自然災害の前後で、宇宙と空中の画像を分析して、関連する特徴を検出する。
画像から水、道路、建物、植生などの特徴を識別するモデル群を設計した。
論文 参考訳(メタデータ) (2020-08-17T15:42:02Z) - An Attention-Based System for Damage Assessment Using Satellite Imagery [18.43310705820528]
本稿では,建物の損傷レベルを評価するため,Siam-U-Net-Attnモデルを提案する。
大規模建物被害評価データセットである xView2 上で提案手法の評価を行い,提案手法が正確な被害規模分類と建物分割を同時に達成できることを実証した。
論文 参考訳(メタデータ) (2020-04-14T16:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。