論文の概要: CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2211.10567v1
- Date: Sat, 19 Nov 2022 02:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:59:34.480739
- Title: CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual
Question Answering
- Title(参考訳): CL-CrossVQA: クロスドメイン視覚質問応答のための連続学習ベンチマーク
- Authors: Yao Zhang, Haokun Chen, Ahmed Frikha, Yezi Yang, Denis Krompass,
Gengyuan Zhang, Jindong Gu, Volker Tresp
- Abstract要約: CL-CrossVQAは、クロスドメイン視覚質問応答のための厳密な連続学習ベンチマークである。
我々は,4つのVLPM,4つのCLアプローチ,および5つのVQAデータセットに関する広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 31.983067109848342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is a multi-discipline research task. To
produce the right answer, it requires an understanding of the visual content of
images, the natural language questions, as well as commonsense reasoning over
the information contained in the image and world knowledge. Recently,
large-scale Vision-and-Language Pre-trained Models (VLPMs) have been the
mainstream approach to VQA tasks due to their superior performance. The
standard practice is to fine-tune large-scale VLPMs pre-trained on huge
general-domain datasets using the domain-specific VQA datasets. However, in
reality, the application domain can change over time, necessitating VLPMs to
continually learn and adapt to new domains without forgetting previously
acquired knowledge. Most existing continual learning (CL) research concentrates
on unimodal tasks, whereas a more practical application scenario, i.e, CL on
cross-domain VQA, has not been studied. Motivated by this, we introduce
CL-CrossVQA, a rigorous Continual Learning benchmark for Cross-domain Visual
Question Answering, through which we conduct extensive experiments on 4 VLPMs,
4 CL approaches, and 5 VQA datasets from different domains. In addition, by
probing the forgetting phenomenon of the intermediate layers, we provide
insights into how model architecture affects CL performance, why CL approaches
can help mitigate forgetting in VLPMs to some extent, and how to design CL
approaches suitable for VLPMs in this challenging continual learning
environment. To facilitate future work on CL for cross-domain VQA, we will
release our datasets and code.
- Abstract(参考訳): VQA(Visual Question Answering)は、多分野の研究課題である。
正しい答えを生み出すには、画像の視覚的な内容、自然言語に関する質問、および画像に含まれる情報と世界の知識に関する常識的推論を理解する必要がある。
近年,VQAタスクにおいて,VLPM(Vision-and-Language Pre-trained Models)が主流となっている。
標準のプラクティスは、ドメイン固有のVQAデータセットを使用して、巨大な汎用ドメインデータセットで事前トレーニングされた大規模なVLPMを微調整することである。
しかし実際には、アプリケーションドメインは時間とともに変化し、vlpmは、以前獲得した知識を忘れずに新しいドメインを継続的に学習し、適応する必要があります。
既存の継続学習(CL)研究のほとんどは一助課題に集中しているが、より実践的なシナリオ、すなわちクロスドメインVQAにおけるCLは研究されていない。
CL-CrossVQAは,4つのVLPM,4つのCLアプローチ,および5つのVQAデータセットに対する広範囲な実験を行う,クロスドメイン視覚質問回答のための厳密な連続学習ベンチマークである。
さらに, モデルアーキテクチャがCL性能にどのように影響するか, CLアプローチがVLPMの忘れをある程度緩和するのに役立つのか, そして, この挑戦的な連続学習環境において, VLPMに適したCLアプローチを設計する方法について考察する。
クロスドメインVQAのためのCLの今後の作業を容易にするため、データセットとコードをリリースします。
関連論文リスト
- Task Progressive Curriculum Learning for Robust Visual Question Answering [6.2175732887853545]
トレーニング戦略をシンプルに拡張することで、堅牢なビジュアル質問回答が実現可能であることを初めて示します。
提案手法であるタスクプログレッシブ・カリキュラム・ラーニング(TPCL)では,主課題であるVQA問題をより小さく,より簡単なタスクに分解する。
標準データセットの包括的評価により,TPCLの有効性を示す。
論文 参考訳(メタデータ) (2024-11-26T10:29:47Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Advancing Cross-domain Discriminability in Continual Learning of Vision-Language Models [24.22859657019636]
RAILは回帰ベースのアダプタで、ドメインのシーケンスから非forgettingな方法で学習する。
VLMのゼロショット能力を参照データなしで未確認領域に保持する。
X-TAILと既存のマルチドメインタスクインクリメンタルラーニング設定の両方におけるRAILの最先端性能を確認する実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-27T03:48:57Z) - VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning [38.063942750061585]
本稿では,CLIPに基づくオープンドメインCLモデルを学習する新しいアプローチであるCoLeCLIPを紹介する。
CoLeCLIPは、タスクとクラスインクリメンタルな学習設定の両方で、オープンドメインCLの最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-15T12:28:21Z) - POP: Prompt Of Prompts for Continual Learning [59.15888651733645]
継続的な学習(CL)は、破滅的な忘れをせずに新しい概念を学習する人間の能力を模倣することを目的としている。
POP学習を用いた基礎モデルでは,古典的なCL手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-14T02:09:26Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。