論文の概要: One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering
- arxiv url: http://arxiv.org/abs/2411.02210v1
- Date: Mon, 04 Nov 2024 16:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:27.683604
- Title: One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering
- Title(参考訳): 学び続けるための1つのVLM:データなし連続視覚質問応答の生成とバランシング
- Authors: Deepayan Das, Davide Talon, Massimiliano Mancini, Yiming Wang, Elisa Ricci,
- Abstract要約: VLM(Vision-Language Models)は、Webスケールのマルチモーダルデータセットを活用することで、VQA(Visual Question Answering)タスクにおいて大きな可能性を秘めている。
これらのモデルは、新しいタスクに適応する際に破滅的な忘れ物のために、継続的な学習に苦しむことが多い。
本稿では,外部モデルに頼るのではなく,VLMの言語生成能力を活用した最初のデータフリー手法を提案する。
- 参考スコア(独自算出の注目度): 31.025439143093585
- License:
- Abstract: Vision-Language Models (VLMs) have shown significant promise in Visual Question Answering (VQA) tasks by leveraging web-scale multimodal datasets. However, these models often struggle with continual learning due to catastrophic forgetting when adapting to new tasks. As an effective remedy to mitigate catastrophic forgetting, rehearsal strategy uses the data of past tasks upon learning new task. However, such strategy incurs the need of storing past data, which might not be feasible due to hardware constraints or privacy concerns. In this work, we propose the first data-free method that leverages the language generation capability of a VLM, instead of relying on external models, to produce pseudo-rehearsal data for addressing continual VQA. Our proposal, named as GaB, generates pseudo-rehearsal data by posing previous task questions on new task data. Yet, despite being effective, the distribution of generated questions skews towards the most frequently posed questions due to the limited and task-specific training data. To mitigate this issue, we introduce a pseudo-rehearsal balancing module that aligns the generated data towards the ground-truth data distribution using either the question meta-statistics or an unsupervised clustering method. We evaluate our proposed method on two recent benchmarks, \ie VQACL-VQAv2 and CLOVE-function benchmarks. GaB outperforms all the data-free baselines with substantial improvement in maintaining VQA performance across evolving tasks, while being on-par with methods with access to the past data.
- Abstract(参考訳): VLM(Vision-Language Models)は、Webスケールのマルチモーダルデータセットを活用することで、VQA(Visual Question Answering)タスクにおいて大きな可能性を秘めている。
しかし、これらのモデルは、新しいタスクに適応する際に破滅的な忘れ物のために、継続的な学習に苦しむことが多い。
破滅的な忘れを和らげるための効果的な治療法として、リハーサル戦略は、新しいタスクを学ぶ際に過去のタスクのデータを使用する。
しかし、そのような戦略は、ハードウェアの制約やプライバシー上の懸念のために実現不可能な過去のデータを格納する必要性を生じさせる。
本研究では,外部モデルに頼らず,VLMの言語生成能力を活用した最初のデータフリー手法を提案し,連続的なVQAに対処するための擬似リハーサルデータを生成する。
提案手法は,従来の課題質問を新たなタスクデータに反映することで,擬似リハーサルデータを生成する。
しかし、有効であるにもかかわらず、生成した質問の分布は、制限されたタスク固有のトレーニングデータのために最も頻繁に提起される質問に対して歪む。
この問題を軽減するため,疑似リハーサルバランスモジュールを導入し,疑似メタ統計法と教師なしクラスタリング法のいずれかを用いて,生成したデータを地上データ分布に整列させる。
提案手法を最近の2つのベンチマーク, \ie VQACL-VQAv2 と CLOVE-function で評価した。
GaBは、過去のデータにアクセスするメソッドと同等でありながら、進化するタスク間でのVQAパフォーマンスの大幅な改善により、すべてのデータフリーベースラインを上回ります。
関連論文リスト
- Federated Continual Learning Goes Online: Uncertainty-Aware Memory Management for Vision Tasks and Beyond [13.867793835583463]
本稿では,破滅的な記憶を解消するための不確実性を考慮したメモリベース手法を提案する。
特定の特性を持つサンプルを検索し、そのようなサンプル上でモデルを再訓練することで、このアプローチの可能性を実証する。
論文 参考訳(メタデータ) (2024-05-29T09:29:39Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Prior-Free Continual Learning with Unlabeled Data in the Wild [24.14279172551939]
本稿では,新しいタスクの学習モデルを段階的に更新するPFCL法を提案する。
PFCLはタスクのアイデンティティや以前のデータを知ることなく、新しいタスクを学習する。
実験の結果,PFCL法は3つの学習シナリオすべてにおいて,忘れを著しく軽減することがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:59:56Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - Learn from Yesterday: A Semi-Supervised Continual Learning Method for
Supervision-Limited Text-to-SQL Task Streams [18.010095381310972]
本稿では,半教師付き学習 (SSL) と連続学習 (CL) をテキストからラベル付きタスクのストリームに統合することを提案する。
2つのデータセットの実験は、SFNetが広く使用されているSSLのみとCLのみのベースラインを、複数のメトリクスで上回っていることを示している。
論文 参考訳(メタデータ) (2022-11-21T07:40:28Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Continual Few-shot Relation Learning via Embedding Space Regularization
and Data Augmentation [4.111899441919165]
従来のタスク知識の破滅的な忘れを回避しつつ,ラベル付きデータが少ない新しい関係パターンを学習する必要がある。
埋め込み空間の正規化とデータ拡張に基づく新しい手法を提案する。
提案手法は,新たな数発タスクに一般化し,リレーショナル埋め込みに対する追加制約を課し,自己管理的なデータ追加を行うことにより,過去のタスクの破滅的な忘れを回避している。
論文 参考訳(メタデータ) (2022-03-04T05:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。