論文の概要: LoRA-TTT: Low-Rank Test-Time Training for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.02069v1
- Date: Tue, 04 Feb 2025 07:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:03.643861
- Title: LoRA-TTT: Low-Rank Test-Time Training for Vision-Language Models
- Title(参考訳): LoRA-TTT:ビジョンランゲージモデルのための低ランクテストタイムトレーニング
- Authors: Yuto Kojima, Jiarui Xu, Xueyan Zou, Xiaolong Wang,
- Abstract要約: 視覚言語モデル(VLM)のための新しいテスト時間訓練(TTT)法であるLoRA-TTTを提案する。
テスト期間中にLoRAを導入し,パラメータのみを更新することにより,本手法は単純かつ効果的なTTTアプローチを提供する。
本手法は,メモリ消費や実行量を増やすことなく,これらの2つの損失を組み合わせ,多様な領域に適応することができる。
- 参考スコア(独自算出の注目度): 23.218237408724676
- License:
- Abstract: The rapid advancements in vision-language models (VLMs), such as CLIP, have intensified the need to address distribution shifts between training and testing datasets. Although prior Test-Time Training (TTT) techniques for VLMs have demonstrated robust performance, they predominantly rely on tuning text prompts, a process that demands substantial computational resources and is heavily dependent on entropy-based loss. In this paper, we propose LoRA-TTT, a novel TTT method that leverages Low-Rank Adaptation (LoRA), applied exclusively to the image encoder of VLMs. By introducing LoRA and updating only its parameters during test time, our method offers a simple yet effective TTT approach, retaining the model's initial generalization capability while achieving substantial performance gains with minimal memory and runtime overhead. Additionally, we introduce a highly efficient reconstruction loss tailored for TTT. Our method can adapt to diverse domains by combining these two losses, without increasing memory consumption or runtime. Extensive experiments on two benchmarks, covering 15 datasets, demonstrate that our method improves the zero-shot top-1 accuracy of CLIP-ViT-B/16 by an average of 5.79% on the OOD benchmark and 1.36% on the fine-grained benchmark, efficiently surpassing test-time prompt tuning, without relying on any external models or cache.
- Abstract(参考訳): CLIPのようなビジョン言語モデル(VLM)の急速な進歩により、トレーニングとテストデータセット間の分散シフトに対処する必要性が高まっている。
VLMの以前のテストタイムトレーニング(TTT)技術は、堅牢な性能を示してきたが、主にテキストプロンプトのチューニングに依存しており、かなりの計算資源を必要とし、エントロピーに基づく損失に大きく依存している。
本稿では,VLMの画像エンコーダにのみ適用されるローランド適応(LoRA)を利用した新しいTTT手法であるLoRA-TTTを提案する。
テスト時間内にLoRAを導入し,パラメータのみを更新することにより,モデルの初期一般化能力を保ちながら,メモリとランタイムのオーバーヘッドを最小限に抑えながら,シンプルなTTTアプローチを実現する。
さらに,TTTに適した高効率な再建損失も導入した。
本手法は,メモリ消費や実行量を増やすことなく,これらの2つの損失を組み合わせ,多様な領域に適応することができる。
OODベンチマークでは平均5.79%,詳細なベンチマークでは1.36%の精度でCLIP-ViT-B/16のゼロショットトップ-1の精度を向上し,外部モデルやキャッシュに頼ることなく,テストタイムのプロンプトチューニングを効率よく上回ることを示した。
関連論文リスト
- Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - Test-time Loss Landscape Adaptation for Zero-Shot Generalization in Vision-Language Models [3.1099372412393524]
本稿では,ロスランドスケープの観点から,既存の手法におけるバックプロパゲーションの不要な性質を明らかにする。
テストタイムロスランドスケープ適応(TLLA)と呼ばれるシンプルだが効果的なフレームワークを提案する。
即時チューニングの段階では、最小限のトレーニングを識別するために、シャープネス・アウェア・プロンプト・チューニング(SAPT)法が導入された。
テスト段階では、平らなミニマのアライメントを確保するためにシャープネスに基づくテストサンプル選択(STSS)アプローチが使用される。
論文 参考訳(メタデータ) (2025-01-31T03:10:48Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Enhancing Test Time Adaptation with Few-shot Guidance [35.13317598777832]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。
TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文 参考訳(メタデータ) (2024-07-22T17:59:19Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Improved Test-Time Adaptation for Domain Generalization [48.239665441875374]
テストタイムトレーニング(TTT)は、学習したモデルにテストデータを適用する。
この作業は2つの主な要因に対処する: テストフェーズ中にアップデートする信頼性のあるパラメータを更新および識別するための適切な補助的TTTタスクを選択する。
トレーニングされたモデルに適応パラメータを追加し、テストフェーズでのみ適応パラメータを更新することを提案する。
論文 参考訳(メタデータ) (2023-04-10T10:12:38Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。