論文の概要: No Images, No Problem: Retaining Knowledge in Continual VQA with Questions-Only Memory
- arxiv url: http://arxiv.org/abs/2502.04469v1
- Date: Thu, 06 Feb 2025 19:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:07.361582
- Title: No Images, No Problem: Retaining Knowledge in Continual VQA with Questions-Only Memory
- Title(参考訳): 画像なし、問題なし:質問のみの記憶を伴う連続VQAにおける知識の保持
- Authors: Imad Eddine Marouf, Enzo Tartaglione, Stephane Lathuiliere, Joost van de Weijer,
- Abstract要約: VQACL(Continuous Learning in Visual Question Answering)は、新しい視覚言語タスク(可塑性)を学習するモデルを必要とする。
既存の手法は、主に一助的なタスクのために設計されており、これらの要求を効果的にバランスをとるのに苦労することが多い。
Intention Distillation (QUAD) を用いたQUestion-only replay(QUestion-only replay with Attention Distillation)を導入する。
- 参考スコア(独自算出の注目度): 17.369734751262126
- License:
- Abstract: Continual Learning in Visual Question Answering (VQACL) requires models to learn new visual-linguistic tasks (plasticity) while retaining knowledge from previous tasks (stability). The multimodal nature of VQACL presents unique challenges, requiring models to balance stability across visual and textual domains while maintaining plasticity to adapt to novel objects and reasoning tasks. Existing methods, predominantly designed for unimodal tasks, often struggle to balance these demands effectively. In this work, we introduce QUestion-only replay with Attention Distillation (QUAD), a novel approach for VQACL that leverages only past task questions for regularisation, eliminating the need to store visual data and addressing both memory and privacy concerns. QUAD achieves stability by introducing a question-only replay mechanism that selectively uses questions from previous tasks to prevent overfitting to the current task's answer space, thereby mitigating the out-of-answer-set problem. Complementing this, we propose attention consistency distillation, which uniquely enforces both intra-modal and inter-modal attention consistency across tasks, preserving essential visual-linguistic associations. Extensive experiments on VQAv2 and NExT-QA demonstrate that QUAD significantly outperforms state-of-the-art methods, achieving robust performance in continual VQA.
- Abstract(参考訳): VQACL(Continuous Learning in Visual Question Answering)は、新しい視覚言語タスク(可塑性)を学習すると同時に、以前のタスク(安定性)からの知識を保持するモデルを必要とする。
VQACLのマルチモーダルな性質は、新しいオブジェクトや推論タスクに適応するために、可塑性を維持しながら、視覚的およびテキスト的ドメイン間の安定性のバランスを取るモデルを必要とする、ユニークな課題を提示している。
既存の手法は、主に一助的なタスクのために設計されており、これらの要求を効果的にバランスをとるのに苦労することが多い。
本稿では,VQACLの新たなアプローチであるQUestion-only replay with Attention Distillation (QUAD)を紹介する。
QUIDは,従来のタスクからの質問を選択的に活用し,現在のタスクの応答空間に過度に適合しないようにすることで,解答外問題を軽減し,安定性を実現する。
そこで本研究では,タスク間のモーダル・イントラモーダル・イントラモーダル・イントラモーダル・イントラモーダル・イントラモーダル・イントラモーダル・イントラモーダル・コントラストを一意に強制するアテンション・コントラスト蒸留法を提案する。
VQAv2 と NExT-QA の大規模な実験により、QUID は最先端の手法を著しく上回り、連続的な VQA において堅牢な性能を達成することを示した。
関連論文リスト
- QuIIL at T3 challenge: Towards Automation in Life-Saving Intervention Procedures from First-Person View [2.3982875575861677]
そこで我々は,Trauma THOMPSON (T3) Challengeにおける省力化介入手順における,多種多様な自動化タスクに対する解決策を提案する。
動作認識と予測のために,複数の入力を1つの画像にサンプリング・縫合する前処理戦略を提案する。
トレーニングのために,アクション辞書誘導型設計を提案する。
論文 参考訳(メタデータ) (2024-07-18T06:55:26Z) - Continual Learning for Temporal-Sensitive Question Answering [12.76582814745124]
現実のアプリケーションでは、静的で完全なデータセットに頼るのではなく、モデルが時間とともに知識を継続的に取得することが重要です。
本稿では,モデルが進化を続ける情報ランドスケープに適応できる戦略について検討する。
時間記憶再生と時間的コントラスト学習を統合したCLTSQAのトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T10:47:43Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Prioritized Soft Q-Decomposition for Lexicographic Reinforcement Learning [1.8399318639816038]
我々は,レキシコグラフィーの優先度でサブタスクソリューションを学習し,適応するための優先度付きソフトQ分解(PSQD)を提案する。
PSQDは、学習済みのサブタスクソリューションをゼロショット合成で再利用する機能を提供し、次に適応ステップを提供する。
我々は,低次元と高次元の両方のロボット制御タスクに対して,学習,再利用,適応性を成功させ,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-03T18:36:21Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Regularizing Attention Networks for Anomaly Detection in Visual Question
Answering [10.971443035470488]
最先端VQAモデルのロバスト性を5つの異なる異常に評価する。
入力画像と質問間の推論の信頼度を利用した注意に基づく手法を提案する。
注意ネットワークの最大エントロピー正規化は、注意に基づく異常検出を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-09-21T17:47:49Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。