論文の概要: ZeShot-VQA: Zero-Shot Visual Question Answering Framework with Answer Mapping for Natural Disaster Damage Assessment
- arxiv url: http://arxiv.org/abs/2506.00238v1
- Date: Fri, 30 May 2025 21:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.517565
- Title: ZeShot-VQA: Zero-Shot Visual Question Answering Framework with Answer Mapping for Natural Disaster Damage Assessment
- Title(参考訳): ZeShot-VQA:自然災害評価のためのアンサーマッピングによるゼロショット視覚質問応答フレームワーク
- Authors: Ehsan Karimi, Maryam Rahnemoonfar,
- Abstract要約: 最近発表されたモデルは、オープンエンドの質問に答える能力を持っていない。
ZeShot-VQAは、トレーニング手順中に見られなかった回答を処理し、生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural disasters usually affect vast areas and devastate infrastructures. Performing a timely and efficient response is crucial to minimize the impact on affected communities, and data-driven approaches are the best choice. Visual question answering (VQA) models help management teams to achieve in-depth understanding of damages. However, recently published models do not possess the ability to answer open-ended questions and only select the best answer among a predefined list of answers. If we want to ask questions with new additional possible answers that do not exist in the predefined list, the model needs to be fin-tuned/retrained on a new collected and annotated dataset, which is a time-consuming procedure. In recent years, large-scale Vision-Language Models (VLMs) have earned significant attention. These models are trained on extensive datasets and demonstrate strong performance on both unimodal and multimodal vision/language downstream tasks, often without the need for fine-tuning. In this paper, we propose a VLM-based zero-shot VQA (ZeShot-VQA) method, and investigate the performance of on post-disaster FloodNet dataset. Since the proposed method takes advantage of zero-shot learning, it can be applied on new datasets without fine-tuning. In addition, ZeShot-VQA is able to process and generate answers that has been not seen during the training procedure, which demonstrates its flexibility.
- Abstract(参考訳): 自然災害は通常、広大な地域や開発途上国のインフラに影響を及ぼす。
影響を受けるコミュニティへの影響を最小限に抑えるためには、タイムリーで効率的な対応が不可欠であり、データ駆動アプローチが最善である。
視覚的な質問応答(VQA)モデルは、マネジメントチームがダメージを深く理解するのに役立ちます。
しかし、最近発表されたモデルは、未解決の質問に答える能力を持たず、あらかじめ定義された回答リストの中で、最良の回答のみを選択することができる。
事前定義されたリストに存在しない可能性のある、新たな可能な新たな回答を質問したい場合は、新しい収集および注釈付きデータセット上で、モデルをfin-tuned/retrainedする必要がある。
近年、VLM(Vision-Language Models)が注目されている。
これらのモデルは、広範囲なデータセットに基づいてトレーニングされ、微調整を必要とせず、非モーダルおよびマルチモーダルの視覚/言語の両方の下流タスクで強力なパフォーマンスを示す。
本稿では,VLMに基づくゼロショットVQA(ZeShot-VQA)手法を提案する。
提案手法はゼロショット学習を利用するので、微調整をせずに新しいデータセットに適用することができる。
さらに、ZeShot-VQAはトレーニング手順中に見られなかった回答を処理し、生成することができる。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。