論文の概要: Continual VQA for Disaster Response Systems
- arxiv url: http://arxiv.org/abs/2209.10320v1
- Date: Wed, 21 Sep 2022 12:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:36:01.739896
- Title: Continual VQA for Disaster Response Systems
- Title(参考訳): 災害対応システムのための連続VQA
- Authors: Aditya Kane, V Manushree, Sahil Khose
- Abstract要約: Visual Question Answering (VQA)は、入力画像から質問に答えることを含むマルチモーダルタスクである。
主な課題は、影響地域の評価におけるラベルの生成による遅延である。
トレーニング済みのCLIPモデルをデプロイし、ビジュアルイメージペアに基づいてトレーニングする。
我々は、FloodNetデータセットの過去の最先端結果を上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is a multi-modal task that involves answering
questions from an input image, semantically understanding the contents of the
image and answering it in natural language. Using VQA for disaster management
is an important line of research due to the scope of problems that are answered
by the VQA system. However, the main challenge is the delay caused by the
generation of labels in the assessment of the affected areas. To tackle this,
we deployed pre-trained CLIP model, which is trained on visual-image pairs.
however, we empirically see that the model has poor zero-shot performance.
Thus, we instead use pre-trained embeddings of text and image from this model
for our supervised training and surpass previous state-of-the-art results on
the FloodNet dataset. We expand this to a continual setting, which is a more
real-life scenario. We tackle the problem of catastrophic forgetting using
various experience replay methods. Our training runs are available at:
https://wandb.ai/compyle/continual_vqa_final
- Abstract(参考訳): VQA(Visual Question Answering)は、入力された画像から質問に答え、画像の内容を理解し、自然言語で答えることを含むマルチモーダルタスクである。
災害管理におけるVQAの利用は,VQAシステムによって解決される問題の範囲から重要な研究分野である。
しかし、主な課題は、影響地域の評価におけるラベルの生成による遅延である。
これに対処するために、事前訓練されたクリップモデルをデプロイし、ビジュアルとイメージのペアでトレーニングしました。
しかし、このモデルはゼロショット性能が低いことを実証的に見ます。
代わりに、教師付きトレーニングのために、このモデルからトレーニング済みのテキストと画像の埋め込みを使用し、FloodNetデータセットの過去の最先端結果を上回っます。
私たちはこれを、より現実的なシナリオである連続的な設定に拡張します。
我々は,様々な経験リプレイ手法を用いて,破滅的な忘れ方の問題に取り組む。
トレーニングの実行は以下の通りです。
関連論文リスト
- VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Unleashing the Potential of Large Language Model: Zero-shot VQA for
Flood Disaster Scenario [6.820160182829294]
洪水被害評価のためのゼロショットVQAモデル(ZFDDA)を提案する。
洪水災害を主な研究対象とし,フリースタイルの洪水画像質問回答データセット(FFD-IQA)を構築した。
この新しいデータセットは、質問タイプを拡張して、自由形式、複数選択、イエスノー質問を含む。
我々のモデルは、大きな言語モデルの可能性を解き明かすために、よく設計された思考の連鎖(CoT)デモを使用する。
論文 参考訳(メタデータ) (2023-12-04T13:25:16Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment
and Analysis [0.7614628596146599]
無人航空機(UAV)と統合された視覚質問応答システムには、災害後の被害評価を前進させる多くの可能性がある。
ハリケーン・マイケル時に収集したテキストHurMic-VQAデータセットについて紹介する。
論文 参考訳(メタデータ) (2021-06-19T18:28:16Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。