論文の概要: Advancing Cross-domain Discriminability in Continual Learning of Vison-Language Models
- arxiv url: http://arxiv.org/abs/2406.18868v1
- Date: Thu, 27 Jun 2024 03:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:17:37.533410
- Title: Advancing Cross-domain Discriminability in Continual Learning of Vison-Language Models
- Title(参考訳): バイソン言語モデルの連続学習におけるクロスドメイン識別性の向上
- Authors: Yicheng Xu, Yuxin Chen, Jiahao Nie, Yusong Wang, Huiping Zhuang, Manabu Okumura,
- Abstract要約: RAILは回帰ベースのアダプタで、ドメインのシーケンスから非forgettingな方法で学習する。
VLMのゼロショット能力を参照データなしで未確認領域に保持する。
- 参考スコア(独自算出の注目度): 24.22859657019636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) with Vision-Language Models (VLMs) has overcome the constraints of traditional CL, which only focuses on previously encountered classes. During the CL of VLMs, we need not only to prevent the catastrophic forgetting on incrementally learned knowledge but also to preserve the zero-shot ability of VLMs. However, existing methods require additional reference datasets to maintain such zero-shot ability and rely on domain-identity hints to classify images across different domains. In this study, we propose Regression-based Analytic Incremental Learning (RAIL), which utilizes a recursive ridge regression-based adapter to learn from a sequence of domains in a non-forgetting manner and decouple the cross-domain correlations by projecting features to a higher-dimensional space. Cooperating with a training-free fusion module, RAIL absolutely preserves the VLM's zero-shot ability on unseen domains without any reference data. Additionally, we introduce Cross-domain Task-Agnostic Incremental Learning (X-TAIL) setting. In this setting, a CL learner is required to incrementally learn from multiple domains and classify test images from both seen and unseen domains without any domain-identity hint. We theoretically prove RAIL's absolute memorization on incrementally learned domains. Experiment results affirm RAIL's state-of-the-art performance in both X-TAIL and existing Multi-domain Task-Incremental Learning settings. The code will be released upon acceptance.
- Abstract(参考訳): ビジョンランゲージモデル(VLM)を用いた連続学習(CL)は、それまで遭遇したクラスのみに焦点を当てた従来のCLの制約を克服した。
VLM の CL の間,段階的に学習した知識を忘れてしまうのを防ぐだけでなく,VLM のゼロショット能力を維持するためにも必要である。
しかし、既存の手法では、そのようなゼロショット能力を維持するために追加の参照データセットを必要とし、異なるドメインにわたるイメージの分類にドメイン識別ヒントに依存している。
本研究では,再帰的なリッジレグレッションベースのアダプタを用いて,非フォッゲッティング方式でドメイン列から学習し,特徴を高次元空間に投影することで,ドメイン間の相関関係を分離する回帰型分析インクリメンタルラーニング(RAIL)を提案する。
RAILはトレーニングフリーの核融合モジュールと協調して、参照データなしでは見えない領域でVLMのゼロショット能力を確実に保持する。
さらに,クロスドメインタスク非依存インクリメンタルラーニング(X-TAIL)の設定を導入する。
この設定では、CL学習者は、複数のドメインから漸進的に学習し、ドメイン識別ヒントを使わずに、目に見えないドメインと見えないドメインの両方からテストイメージを分類する必要がある。
我々は、RAILの絶対記憶を漸進的に学習した領域で理論的に証明する。
X-TAILと既存のマルチドメインタスクインクリメンタルラーニング設定の両方におけるRAILの最先端性能を確認する実験結果が得られた。
コードは受理時にリリースされます。
関連論文リスト
- Prompt-based Visual Alignment for Zero-shot Policy Transfer [35.784936617675896]
強化学習におけるオーバーフィッティングは、強化学習への応用における主要な障害の1つとなっている。
ゼロショットポリシー転送のための画像における有害領域バイアスを軽減するために,プロンプトベースの視覚アライメント(PVA)を提案する。
CARLAシミュレータを用いて視覚に基づく自律運転タスクにおけるPVAの検証を行う。
論文 参考訳(メタデータ) (2024-06-05T13:26:30Z) - Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation [66.72195610471624]
Cross-Domain Sequential Recommendationは、異なるドメイン間でユーザのシーケンシャルな好みをマイニングし、転送することを目的としている。
本稿では,ユーザ検索手法を探索し,CDSRの性能向上を目的とした URLLM という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T09:19:54Z) - CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning [38.063942750061585]
本稿では,CLIPに基づくオープンドメインCLモデルを学習する新しいアプローチであるCoLeCLIPを紹介する。
CoLeCLIPは、タスクとクラスインクリメンタルな学習設定の両方で、オープンドメインCLの最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-15T12:28:21Z) - Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context
Learning [48.22913073217633]
大規模言語モデル(LLM)は、インコンテキスト学習(in-context learning)として知られる少数の推論でその能力を示した。
本稿では,UDA問題を文脈内学習環境下で研究し,ソースドメインからターゲットドメインへの言語モデルの適用を,ターゲットラベルを使わずに行う。
我々は、異なるLMアーキテクチャを考慮し、異なるプロンプトとトレーニング戦略を考案し、言語モデリングを通してターゲット分布を学習する。
論文 参考訳(メタデータ) (2023-11-20T06:06:20Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - AD-CLIP: Adapting Domains in Prompt Space Using CLIP [13.915653907503463]
本稿では,CLIPのドメインに依存しないプロンプト学習戦略であるAD-CLIPを紹介する。
我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。
3つのベンチマークDAデータセットに対する実験により,既存の文献と比較してAD-CLIPの有効性が示された。
論文 参考訳(メタデータ) (2023-08-10T15:58:28Z) - Adversarial Feature Augmentation for Cross-domain Few-shot
Classification [2.68796389443975]
本稿では, ドメインギャップを補うために, 対角的特徴拡張法(AFA)を提案する。
提案手法はプラグイン・アンド・プレイモジュールであり,既存の数発学習手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2022-08-23T15:10:22Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。