Fugu-MT 論文翻訳(概要): A streamlined Approach to Multimodal Few-Shot Class Incremental Learning for Fine-Grained Datasets

論文の概要: A streamlined Approach to Multimodal Few-Shot Class Incremental Learning for Fine-Grained Datasets

arxiv url: http://arxiv.org/abs/2403.06295v1
Date: Sun, 10 Mar 2024 19:50:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 21:00:37.666888
Title: A streamlined Approach to Multimodal Few-Shot Class Incremental Learning for Fine-Grained Datasets
Title（参考訳）: 細粒度データセットに対するマルチモーダルFew-Shotクラスインクリメンタル学習の合理化
Authors: Thang Doan, Sima Behpour, Xin Li, Wenbin He, Liang Gou, Liu Ren
Abstract要約: FSCIL(Few-shot Class-Incremental Learning)は、限られた新しいデータストリームから学習しながら、事前の知識を維持するという課題を提起する。本稿では,セッション間の画像テキスト埋め込みの分離性を向上するSSP(Session-Specific Prompts)を提案する。第2のハイパーボリック距離は、同じクラス内の画像とテキストのペアの表現を圧縮し、異なるクラスから拡張し、より良い表現をもたらす。
参考スコア（独自算出の注目度）: 23.005760505169803
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Few-shot Class-Incremental Learning (FSCIL) poses the challenge of retaining prior knowledge while learning from limited new data streams, all without overfitting. The rise of Vision-Language models (VLMs) has unlocked numerous applications, leveraging their existing knowledge to fine-tune on custom data. However, training the whole model is computationally prohibitive, and VLMs while being versatile in general domains still struggle with fine-grained datasets crucial for many applications. We tackle these challenges with two proposed simple modules. The first, Session-Specific Prompts (SSP), enhances the separability of image-text embeddings across sessions. The second, Hyperbolic distance, compresses representations of image-text pairs within the same class while expanding those from different classes, leading to better representations. Experimental results demonstrate an average 10-point increase compared to baselines while requiring at least 8 times fewer trainable parameters. This improvement is further underscored on our three newly introduced fine-grained datasets.
Abstract（参考訳）: FSCIL(Class-Incremental Learning)は、制限された新しいデータストリームから学習しながら、すべて過度に適合することなく、事前の知識を維持するという課題を提起する。 VLM(Vision-Language Model)の台頭は、既存の知識を活用してカスタムデータを微調整する多くのアプリケーションをアンロックした。しかし、モデル全体のトレーニングは計算的に禁止されており、VLMは汎用性はあるものの、多くのアプリケーションにとって重要な詳細なデータセットに苦戦している。これらの課題を2つの単純なモジュールで解決する。最初のSSP(Session-Specific Prompts)は、セッション間の画像テキスト埋め込みの分離性を高める。第2のハイパーボリック距離は、同じクラス内の画像とテキストのペアの表現を圧縮し、異なるクラスから拡張し、より良い表現をもたらす。実験の結果, トレーニング可能なパラメータの少なくとも8倍は必要であり, ベースラインに比べて平均10点の増加が認められた。この改善は、新たに導入された3つのきめ細かいデータセットをさらに強調します。

関連論文リスト

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。 Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-18T14:07:13Z)
Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。 CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-15T15:43:52Z)
Convolutional Prompting meets Language Models for Continual Learning [4.115213208594654]
継続学習(CL)により、機械学習モデルは、古いタスクからのデータなしで、新しいトレーニングデータを継続的にシフトすることから学ぶことができる。 ConvPromptは、階層的に共有された埋め込みを維持する新しい畳み込みプロンプト生成機構である。畳み込みのインテリジェントな利用により、パフォーマンスを損なうことなく、低パラメータのオーバーヘッドを維持することができます。
論文参考訳（メタデータ） (2024-03-29T17:40:37Z)
PL-FSCIL: Harnessing the Power of Prompts for Few-Shot Class-Incremental Learning [9.247718160705512]
FSCIL(Few-Shot Class-Incremental Learning)は、ディープニューラルネットワークが少数のラベル付きサンプルから段階的に新しいタスクを学習できるようにすることを目的としている。 FSCIL(PL-FSCIL)のためのPrompt Learningと呼ばれる新しいアプローチを提案する。 PL-FSCILは、FSCILの課題に効果的に取り組むために、事前訓練されたビジョントランスフォーマー(ViT)モデルと共にプロンプトのパワーを利用する。
論文参考訳（メタデータ） (2024-01-26T12:11:04Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。 VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文参考訳（メタデータ） (2023-05-30T17:59:32Z)
Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-29T20:39:36Z)
Pushing the Limits of Simple Pipelines for Few-Shot Learning: External Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (2022-04-15T02:55:58Z)
MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文参考訳（メタデータ） (2022-01-25T22:30:54Z)
Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T22:20:47Z)
Complementing Representation Deficiency in Few-shot Image Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-07-21T13:25:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。