論文の概要: Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task
- arxiv url: http://arxiv.org/abs/2208.12037v1
- Date: Wed, 24 Aug 2022 12:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:29:25.090424
- Title: Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task
- Title(参考訳): シンボリックリプレイ:VQAタスクにおける連続学習のプロンプトとしてのシーングラフ
- Authors: Stan Weixian Lei, Difei Gao, Jay Zhangjie Wu, Yuxuan Wang, Wei Liu,
Mengmi Zhang, Mike Zheng Shou
- Abstract要約: VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
- 参考スコア(独自算出の注目度): 12.74065821307626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VQA is an ambitious task aiming to answer any image-related question.
However, in reality, it is hard to build such a system once for all since the
needs of users are continuously updated, and the system has to implement new
functions. Thus, Continual Learning (CL) ability is a must in developing
advanced VQA systems. Recently, a pioneer work split a VQA dataset into
disjoint answer sets to study this topic. However, CL on VQA involves not only
the expansion of label sets (new Answer sets). It is crucial to study how to
answer questions when deploying VQA systems to new environments (new Visual
scenes) and how to answer questions requiring new functions (new Question
types). Thus, we propose CLOVE, a benchmark for Continual Learning On Visual
quEstion answering, which contains scene- and function-incremental settings for
the two aforementioned CL scenarios. In terms of methodology, the main
difference between CL on VQA and classification is that the former additionally
involves expanding and preventing forgetting of reasoning mechanisms, while the
latter focusing on class representation. Thus, we propose a real-data-free
replay-based method tailored for CL on VQA, named Scene Graph as Prompt for
Symbolic Replay. Using a piece of scene graph as a prompt, it replays pseudo
scene graphs to represent the past images, along with correlated QA pairs. A
unified VQA model is also proposed to utilize the current and replayed data to
enhance its QA ability. Finally, experimental results reveal challenges in
CLOVE and demonstrate the effectiveness of our method. The dataset and code
will be available at https://github.com/showlab/CLVQA.
- Abstract(参考訳): VQAは、画像に関するあらゆる疑問に答えるための野心的なタスクである。
しかし,ユーザのニーズが継続的に更新され,新たな機能を実装する必要があるため,このようなシステムを構築することは不可能である。
このように、継続学習(CL)能力は、先進的なVQAシステムを開発する上で必須である。
近年、先駆的な研究がVQAデータセットを解答集合に分割してこのトピックを研究している。
しかしながら、VQA上のCLはラベル集合(新しいアンサー集合)の拡張だけに留まらない。
新しい環境(新しいビジュアルシーン)にVQAシステムをデプロイする際の質問に答える方法や、新しい機能を必要とする質問に答える方法(新しい質問タイプ)を研究することが重要である。
そこで本研究では,2つのclシナリオのシーン設定と機能インクリメンタル設定を含む,視覚的質問応答の継続学習のためのベンチマークであるcloveを提案する。
方法論の観点では、VQAにおけるCLと分類の主な違いは、前者は推論機構を拡張・防止すること、後者はクラス表現に焦点を当てることである。
そこで本研究では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
シーングラフをプロンプトとして使用し、擬似シーングラフを再生して過去の画像を表現し、相関したQAペアを生成する。
また、そのQA能力を高めるために、現在のデータと再生データを利用する統合VQAモデルも提案されている。
最後に, 実験結果からCLOVEの課題を明らかにし, 提案手法の有効性を実証した。
データセットとコードはhttps://github.com/showlab/clvqaで入手できる。
関連論文リスト
- Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Continual VQA for Disaster Response Systems [0.0]
Visual Question Answering (VQA)は、入力画像から質問に答えることを含むマルチモーダルタスクである。
主な課題は、影響地域の評価におけるラベルの生成による遅延である。
トレーニング済みのCLIPモデルをデプロイし、ビジュアルイメージペアに基づいてトレーニングする。
我々は、FloodNetデータセットの過去の最先端結果を上回った。
論文 参考訳(メタデータ) (2022-09-21T12:45:51Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文 参考訳(メタデータ) (2022-04-02T15:09:16Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。