論文の概要: Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.17589v1
- Date: Tue, 26 Mar 2024 10:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:47:16.904447
- Title: Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models
- Title(参考訳): Dual Memory Networks:視覚言語モデルのためのVersatile Adaptation Approach
- Authors: Yabin Zhang, Wenjie Zhu, Hui Tang, Zhiyuan Ma, Kaiyang Zhou, Lei Zhang,
- Abstract要約: 3つの設定すべてで効果的に機能する多目的適応手法を導入する。
動的および静的なメモリコンポーネントからなるデュアルメモリネットワークを提案する。
私たちのアプローチは、3つのタスク設定の下で11のデータセットでテストされます。
- 参考スコア(独自算出の注目度): 37.492637804756164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the emergence of pre-trained vision-language models like CLIP, how to adapt them to various downstream classification tasks has garnered significant attention in recent research. The adaptation strategies can be typically categorized into three paradigms: zero-shot adaptation, few-shot adaptation, and the recently-proposed training-free few-shot adaptation. Most existing approaches are tailored for a specific setting and can only cater to one or two of these paradigms. In this paper, we introduce a versatile adaptation approach that can effectively work under all three settings. Specifically, we propose the dual memory networks that comprise dynamic and static memory components. The static memory caches training data knowledge, enabling training-free few-shot adaptation, while the dynamic memory preserves historical test features online during the testing process, allowing for the exploration of additional data insights beyond the training set. This novel capability enhances model performance in the few-shot setting and enables model usability in the absence of training data. The two memory networks employ the same flexible memory interactive strategy, which can operate in a training-free mode and can be further enhanced by incorporating learnable projection layers. Our approach is tested across 11 datasets under the three task settings. Remarkably, in the zero-shot scenario, it outperforms existing methods by over 3\% and even shows superior results against methods utilizing external training data. Additionally, our method exhibits robust performance against natural distribution shifts. Codes are available at \url{https://github.com/YBZh/DMN}.
- Abstract(参考訳): CLIPのような事前学習された視覚言語モデルの出現に伴い、様々な下流分類タスクへの適応方法が近年の研究では大きな注目を集めている。
適応戦略は通常、ゼロショット適応、少数ショット適応、最近提案されたトレーニングなしの少数ショット適応の3つのパラダイムに分類される。
既存のアプローチのほとんどは、特定の設定に合わせて調整されており、これらのパラダイムの1つまたは2つにしか対応できない。
本稿では,3つの設定すべてで効果的に機能する多目的適応手法を提案する。
具体的には、動的および静的なメモリコンポーネントからなるデュアルメモリネットワークを提案する。
静的メモリはトレーニングの知識をキャッシュし、トレーニング不要な数ショットの適応を可能にし、動的メモリはテストプロセス中にオンラインの履歴テスト機能を保存し、トレーニングセット以外の追加データインサイトを探索する。
この新たな機能は、数ショット設定におけるモデルパフォーマンスを高め、トレーニングデータがない場合にモデル使用性を可能にする。
2つのメモリネットワークは同じフレキシブルなメモリインタラクティブ戦略を採用しており、トレーニング不要モードで動作でき、学習可能なプロジェクション層を組み込むことでさらに拡張することができる。
私たちのアプローチは、3つのタスク設定の下で11のデータセットでテストされます。
注目すべきは、ゼロショットのシナリオでは、既存のメソッドを3倍以上上回り、外部トレーニングデータを利用するメソッドに対して優れた結果を示すことだ。
さらに,本手法は自然分布シフトに対して頑健な性能を示す。
コードは \url{https://github.com/YBZh/DMN} で公開されている。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Foundation Model-Powered 3D Few-Shot Class Incremental Learning via Training-free Adaptor [9.54964908165465]
本稿では,3Dポイントクラウド環境におけるFew-Shot連続インクリメンタルラーニング問題に対処する新しい手法を提案する。
私たちは、ポイントクラウドデータに基づいて広範囲にトレーニングされた基礎的な3Dモデルを活用します。
このアプローチでは、二重キャッシュシステムを使用します。まず、モデルの予測にどれだけ自信があるかに基づいて、以前のテストサンプルを使用し、次に、オーバーフィッティングを防ぐために、少数の新しいタスクサンプルを含んでいます。
論文 参考訳(メタデータ) (2024-10-11T20:23:00Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。