論文の概要: Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.17589v1
- Date: Tue, 26 Mar 2024 10:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:47:16.904447
- Title: Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models
- Title(参考訳): Dual Memory Networks:視覚言語モデルのためのVersatile Adaptation Approach
- Authors: Yabin Zhang, Wenjie Zhu, Hui Tang, Zhiyuan Ma, Kaiyang Zhou, Lei Zhang,
- Abstract要約: 3つの設定すべてで効果的に機能する多目的適応手法を導入する。
動的および静的なメモリコンポーネントからなるデュアルメモリネットワークを提案する。
私たちのアプローチは、3つのタスク設定の下で11のデータセットでテストされます。
- 参考スコア(独自算出の注目度): 37.492637804756164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the emergence of pre-trained vision-language models like CLIP, how to adapt them to various downstream classification tasks has garnered significant attention in recent research. The adaptation strategies can be typically categorized into three paradigms: zero-shot adaptation, few-shot adaptation, and the recently-proposed training-free few-shot adaptation. Most existing approaches are tailored for a specific setting and can only cater to one or two of these paradigms. In this paper, we introduce a versatile adaptation approach that can effectively work under all three settings. Specifically, we propose the dual memory networks that comprise dynamic and static memory components. The static memory caches training data knowledge, enabling training-free few-shot adaptation, while the dynamic memory preserves historical test features online during the testing process, allowing for the exploration of additional data insights beyond the training set. This novel capability enhances model performance in the few-shot setting and enables model usability in the absence of training data. The two memory networks employ the same flexible memory interactive strategy, which can operate in a training-free mode and can be further enhanced by incorporating learnable projection layers. Our approach is tested across 11 datasets under the three task settings. Remarkably, in the zero-shot scenario, it outperforms existing methods by over 3\% and even shows superior results against methods utilizing external training data. Additionally, our method exhibits robust performance against natural distribution shifts. Codes are available at \url{https://github.com/YBZh/DMN}.
- Abstract(参考訳): CLIPのような事前学習された視覚言語モデルの出現に伴い、様々な下流分類タスクへの適応方法が近年の研究では大きな注目を集めている。
適応戦略は通常、ゼロショット適応、少数ショット適応、最近提案されたトレーニングなしの少数ショット適応の3つのパラダイムに分類される。
既存のアプローチのほとんどは、特定の設定に合わせて調整されており、これらのパラダイムの1つまたは2つにしか対応できない。
本稿では,3つの設定すべてで効果的に機能する多目的適応手法を提案する。
具体的には、動的および静的なメモリコンポーネントからなるデュアルメモリネットワークを提案する。
静的メモリはトレーニングの知識をキャッシュし、トレーニング不要な数ショットの適応を可能にし、動的メモリはテストプロセス中にオンラインの履歴テスト機能を保存し、トレーニングセット以外の追加データインサイトを探索する。
この新たな機能は、数ショット設定におけるモデルパフォーマンスを高め、トレーニングデータがない場合にモデル使用性を可能にする。
2つのメモリネットワークは同じフレキシブルなメモリインタラクティブ戦略を採用しており、トレーニング不要モードで動作でき、学習可能なプロジェクション層を組み込むことでさらに拡張することができる。
私たちのアプローチは、3つのタスク設定の下で11のデータセットでテストされます。
注目すべきは、ゼロショットのシナリオでは、既存のメソッドを3倍以上上回り、外部トレーニングデータを利用するメソッドに対して優れた結果を示すことだ。
さらに,本手法は自然分布シフトに対して頑健な性能を示す。
コードは \url{https://github.com/YBZh/DMN} で公開されている。
関連論文リスト
- Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks [5.5127111704068374]
我々は,これらの課題を解決するためのステップストーンとして,記憶からトランスダクションによって分離するという考えを論じる。
本稿では,高密度予測タスクを解くためにメモリモジュールを活用するスケーラブルなトランスダクション手法であるPARMESANを提案する。
提案手法は一般的なニューラルネットワークと互換性があり、1D, 2D, 3Dグリッドベースのデータにカノニカルに転送する。
論文 参考訳(メタデータ) (2024-03-18T12:55:40Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Dynamic Memory Induction Networks for Few-Shot Text Classification [84.88381813651971]
本稿では,テキスト分類のための動的メモリ誘導ネットワーク(DMIN)を提案する。
提案したモデルでは, miniRCV1 と ODIC データセット上での新たな最先端結果を実現し,最高の性能(精度)を24%向上させる。
論文 参考訳(メタデータ) (2020-05-12T12:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。