論文の概要: A streamlined Approach to Multimodal Few-Shot Class Incremental Learning
for Fine-Grained Datasets
- arxiv url: http://arxiv.org/abs/2403.06295v1
- Date: Sun, 10 Mar 2024 19:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 21:00:37.666888
- Title: A streamlined Approach to Multimodal Few-Shot Class Incremental Learning
for Fine-Grained Datasets
- Title(参考訳): 細粒度データセットに対するマルチモーダルFew-Shotクラスインクリメンタル学習の合理化
- Authors: Thang Doan, Sima Behpour, Xin Li, Wenbin He, Liang Gou, Liu Ren
- Abstract要約: FSCIL(Few-shot Class-Incremental Learning)は、限られた新しいデータストリームから学習しながら、事前の知識を維持するという課題を提起する。
本稿では,セッション間の画像テキスト埋め込みの分離性を向上するSSP(Session-Specific Prompts)を提案する。
第2のハイパーボリック距離は、同じクラス内の画像とテキストのペアの表現を圧縮し、異なるクラスから拡張し、より良い表現をもたらす。
- 参考スコア(独自算出の注目度): 23.005760505169803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot Class-Incremental Learning (FSCIL) poses the challenge of retaining
prior knowledge while learning from limited new data streams, all without
overfitting. The rise of Vision-Language models (VLMs) has unlocked numerous
applications, leveraging their existing knowledge to fine-tune on custom data.
However, training the whole model is computationally prohibitive, and VLMs
while being versatile in general domains still struggle with fine-grained
datasets crucial for many applications. We tackle these challenges with two
proposed simple modules. The first, Session-Specific Prompts (SSP), enhances
the separability of image-text embeddings across sessions. The second,
Hyperbolic distance, compresses representations of image-text pairs within the
same class while expanding those from different classes, leading to better
representations. Experimental results demonstrate an average 10-point increase
compared to baselines while requiring at least 8 times fewer trainable
parameters. This improvement is further underscored on our three newly
introduced fine-grained datasets.
- Abstract(参考訳): FSCIL(Class-Incremental Learning)は、制限された新しいデータストリームから学習しながら、すべて過度に適合することなく、事前の知識を維持するという課題を提起する。
VLM(Vision-Language Model)の台頭は、既存の知識を活用してカスタムデータを微調整する多くのアプリケーションをアンロックした。
しかし、モデル全体のトレーニングは計算的に禁止されており、VLMは汎用性はあるものの、多くのアプリケーションにとって重要な詳細なデータセットに苦戦している。
これらの課題を2つの単純なモジュールで解決する。
最初のSSP(Session-Specific Prompts)は、セッション間の画像テキスト埋め込みの分離性を高める。
第2のハイパーボリック距離は、同じクラス内の画像とテキストのペアの表現を圧縮し、異なるクラスから拡張し、より良い表現をもたらす。
実験の結果, トレーニング可能なパラメータの少なくとも8倍は必要であり, ベースラインに比べて平均10点の増加が認められた。
この改善は、新たに導入された3つのきめ細かいデータセットをさらに強調します。
関連論文リスト
- Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - Convolutional Prompting meets Language Models for Continual Learning [4.115213208594654]
継続学習(CL)により、機械学習モデルは、古いタスクからのデータなしで、新しいトレーニングデータを継続的にシフトすることから学ぶことができる。
ConvPromptは、階層的に共有された埋め込みを維持する新しい畳み込みプロンプト生成機構である。
畳み込みのインテリジェントな利用により、パフォーマンスを損なうことなく、低パラメータのオーバーヘッドを維持することができます。
論文 参考訳(メタデータ) (2024-03-29T17:40:37Z) - PL-FSCIL: Harnessing the Power of Prompts for Few-Shot Class-Incremental Learning [9.247718160705512]
FSCIL(Few-Shot Class-Incremental Learning)は、ディープニューラルネットワークが少数のラベル付きサンプルから段階的に新しいタスクを学習できるようにすることを目的としている。
FSCIL(PL-FSCIL)のためのPrompt Learningと呼ばれる新しいアプローチを提案する。
PL-FSCILは、FSCILの課題に効果的に取り組むために、事前訓練されたビジョントランスフォーマー(ViT)モデルと共にプロンプトのパワーを利用する。
論文 参考訳(メタデータ) (2024-01-26T12:11:04Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。