論文の概要: MINT: Memory-Infused Prompt Tuning at Test-time for CLIP
- arxiv url: http://arxiv.org/abs/2506.03190v1
- Date: Sat, 31 May 2025 07:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.927644
- Title: MINT: Memory-Infused Prompt Tuning at Test-time for CLIP
- Title(参考訳): MINT:CLIPのテスト時のメモリ注入プロンプトチューニング
- Authors: Jiaming Yi, Ruirui Pan, Jishen Yang, Xiulong Yang,
- Abstract要約: 既存のテスト時間適応メソッドは、モデルの内部知識を完全に活用するには不十分です。
人間の連想記憶理論に触発され、MINTはメモリ・プロンプト・バンクを導入した。
MINTは、MPBが取得したメモリを利用することで、テスト時に迅速かつ正確なVLM適応を可能にする。
- 参考スコア(独自算出の注目度): 2.117421588033177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the generalization ability of Vision-Language Pre-trained Models (VLMs) under test-time data distribution shifts remains a critical challenge. The existing Test-Time Adaptation (TTA) methods fall short in fully leveraging the model's internal knowledge, particularly in dynamically adapting to complex and hierarchical visual semantic information. In this paper, we propose Memory-Infused Prompt Tuning (MINT), a novel framework to address this issue. Inspired by human associative memory theory, MINT introduces a Memory Prompt Bank (MPB), which stores learnable key-value prompt pairs that work as a memory of previously seen samples. During the test time, relevant prompt pairs in the MPB are retrieved by the hierarchical visual features of test images to dynamically assemble Associative Prompts. The associative prompts are then injected into the image encoder for fine-grained, customized visual contextual guidance. MINT also utilizes learnable text prompts. MINT thus enables rapid, precise VLM adaptation at test time by leveraging this MPB-acquired memory, without source data or retraining. The code is available at https://github.com/Jamieyi2004/MINT.
- Abstract(参考訳): テスト時間データ分散シフトによるビジョンランゲージ事前訓練モデル(VLM)の一般化能力の向上は,依然として重要な課題である。
既存のTest-Time Adaptation(TTA)メソッドは、モデルの内部知識、特に複雑で階層的な視覚的セマンティック情報への動的適応を十分に活用できない。
本稿では,メモリ注入型プロンプトチューニング(MINT,Memory-Infused Prompt Tuning)を提案する。
人間の連想記憶理論にインスパイアされたMINTは、学習可能なキーと値のプロンプトペアを格納するメモリプロンプトバンク(MPB)を導入した。
テスト時間中、MPB内の関連するプロンプトペアは、テスト画像の階層的な視覚特徴によって検索され、Associative Promptを動的に組み立てる。
その後、連想的プロンプトがイメージエンコーダに注入され、きめ細かいカスタマイズされた視覚的コンテキストガイダンスが提供される。
MINTは学習可能なテキストプロンプトも利用する。
MINTは、MPBが取得したメモリをソースデータや再トレーニングなしで利用することにより、テスト時に迅速かつ正確なVLM適応を可能にする。
コードはhttps://github.com/Jamieyi2004/MINTで公開されている。
関連論文リスト
- Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。
次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文 参考訳(メタデータ) (2025-05-01T17:31:33Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。
近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文 参考訳(メタデータ) (2024-07-04T10:37:58Z) - MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models [10.783764497590473]
トランスフォーマーベースの言語モデル(LM)は、大規模でハードコードされた入力ウィンドウを通してコンテキスト情報を追跡する。
メモリプロンプト(MemoryPrompt)は、LMを小さな補助的リカレントネットワークで補完し、その正規入力をベクトル列でプレフィックスすることでLMに情報伝達する手法である。
複数のファクト更新を追跡するLMの能力を調査するために設計されたタスクでテストされた MemoryPromptの拡張されたLM は、完全な入力履歴にアクセス可能なより大きなLMよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T11:30:39Z) - TF-CLIP: Learning Text-free CLIP for Video-based Person
Re-Identification [60.5843635938469]
ビデオベースのReIDのための一段階のテキストフリーCLIP学習フレームワークTF-CLIPを提案する。
より具体的には、テキスト機能を置き換えるために、アイデンティティ固有のシーケンス機能をCLIPメモリとして抽出する。
提案手法は,MARS,LS-VID,iLIDS-VIDの他の最先端手法よりも優れた結果を示す。
論文 参考訳(メタデータ) (2023-12-15T09:10:05Z) - RET-LLM: Towards a General Read-Write Memory for Large Language Models [53.288356721954514]
RET-LLMは、大規模な言語モデルに一般的な読み書きメモリユニットを装備する新しいフレームワークである。
デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。
本フレームワークは,時間に基づく質問応答タスクの処理において,堅牢な性能を示す。
論文 参考訳(メタデータ) (2023-05-23T17:53:38Z) - Classification and Generation of real-world data with an Associative
Memory Model [0.0]
マルチモーダル・フレームワークを用いて,基本的な連想記憶モデルの能力を拡張する。
イメージとラベルの両方をモダリティとして保存することで、単一のメモリを使用してパターンを検索し、完了させることができる。
論文 参考訳(メタデータ) (2022-07-11T12:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。