論文の概要: Efficient Open Set Single Image Test Time Adaptation of Vision Language Models
- arxiv url: http://arxiv.org/abs/2406.00481v2
- Date: Sat, 31 May 2025 11:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.841425
- Title: Efficient Open Set Single Image Test Time Adaptation of Vision Language Models
- Title(参考訳): 視覚言語モデルの効率的な単一画像テスト時間適応
- Authors: Manogna Sreenivas, Soma Biswas,
- Abstract要約: 動的で現実世界の環境にモデルを適応させることは、ディープラーニングにおける重要な課題である。
動的に更新された機能バンクを利用して信頼性の高いテストサンプルを識別する新しいフレームワークであるROSITAを提案する。
このアプローチは、未知のサンプルを拒絶しながら、既知のクラスに対するドメインシフトにモデルを効果的に適用する。
- 参考スコア(独自算出の注目度): 15.621092104244003
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adapting models to dynamic, real-world environments characterized by shifting data distributions and unseen test scenarios is a critical challenge in deep learning. In this paper, we consider a realistic and challenging Test-Time Adaptation setting, where a model must continuously adapt to test samples that arrive sequentially, one at a time, while distinguishing between known and unknown classes. Current Test-Time Adaptation methods operate under closed-set assumptions or batch processing, differing from the real-world open-set scenarios. We address this limitation by establishing a comprehensive benchmark for {\em Open-set Single-image Test-Time Adaptation using Vision-Language Models}. Furthermore, we propose ROSITA, a novel framework that leverages dynamically updated feature banks to identify reliable test samples and employs a contrastive learning objective to improve the separation between known and unknown classes. Our approach effectively adapts models to domain shifts for known classes while rejecting unfamiliar samples. Extensive experiments across diverse real-world benchmarks demonstrate that ROSITA sets a new state-of-the-art in open-set TTA, achieving both strong performance and computational efficiency for real-time deployment. Our code can be found at the project site https://manogna-s.github.io/rosita/
- Abstract(参考訳): データ分散と見えないテストシナリオのシフトを特徴とする、動的で現実的な環境へのモデルの適用は、ディープラーニングにおける重要な課題である。
本稿では,テスト時間適応の現実的かつ挑戦的な設定について考察する。そこでは,モデルが未知のクラスと未知のクラスを区別しながら,順次やってくるテストサンプルに連続的に適応しなければならない。
現在のTest-Time Adaptationメソッドは、実世界のオープンセットのシナリオと異なり、クローズドセットの仮定やバッチ処理の下で動作します。
我々は、ビジョンランゲージモデルを用いたオープンセット単イメージテスト時間適応のための包括的なベンチマークを確立することで、この制限に対処する。
さらに、動的に更新された特徴バンクを利用して信頼性の高いテストサンプルを識別する新しいフレームワークROSITAを提案する。
このアプローチは、未知のサンプルを拒絶しながら、既知のクラスに対するドメインシフトにモデルを効果的に適用する。
様々な実世界のベンチマークによる大規模な実験により、ROSITAはオープンソースのTTAに新たな最先端の状態を設定し、リアルタイムデプロイメントに強力なパフォーマンスと計算効率を実現することが示されている。
私たちのコードはプロジェクトのサイトhttps://manogna-s.github.io/rosita/にある。
関連論文リスト
- TAPS : Frustratingly Simple Test Time Active Learning for VLMs [0.0]
テスト時間最適化により、モデルはパラメータをオンザフライで更新することで、推論中に新しいデータに適応できる。
本研究では,不確実なサンプルを適応的にクエリし,動的に更新するテスト時アクティブラーニングフレームワークを提案する。
我々のフレームワークは、自律システムや医療診断などの安全クリティカルなアプリケーションに現実世界を配置するための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-26T18:04:49Z) - Breaking Silos: Adaptive Model Fusion Unlocks Better Time Series Forecasting [64.45587649141842]
時系列予測は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
1つのモデルは、異なるテストサンプルで一貫して他よりも優れていますが、(ii) それぞれのモデルは特定のケースで優れています。
異種モデルのサンプルレベル適応融合による時系列予測のためのフレームワークであるTimeFuseを紹介する。
論文 参考訳(メタデータ) (2025-05-24T00:45:07Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Harnessing Large Language and Vision-Language Models for Robust Out-of-Distribution Detection [11.277049921075026]
Out-of-distribution (OOD) 検出はゼロショットアプローチで大幅に進歩した。
本稿では,Far-OODシナリオとNear-OODシナリオの両方において,ゼロショットOOD検出性能を向上させる新しい手法を提案する。
本稿では,提案フレームワークを目標分布に適合させるために,新しい数発のプロンプトチューニングと視覚的プロンプトチューニングを導入する。
論文 参考訳(メタデータ) (2025-01-09T13:36:37Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - SOOD-ImageNet: a Large-Scale Dataset for Semantic Out-Of-Distribution Image Classification and Semantic Segmentation [6.21476985578569]
コンピュータビジョンにおけるアウト・オブ・ディストリビューション(OOD)検出は重要な研究領域である。
SOOD-ImageNetは56のクラスにまたがる1.6万の画像からなる新しいデータセットである。
OOD条件下でのイメージ分類やセマンティックセグメンテーションなどの一般的なコンピュータビジョンタスクのために設計されている。
論文 参考訳(メタデータ) (2024-09-02T09:37:39Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models [3.0495235326282186]
ディープラーニングでは、分散シフトに対する堅牢性を維持することが重要です。
この研究は、視覚言語基礎モデルをテスト時に適用するための幅広い可能性を探究する。
論文 参考訳(メタデータ) (2024-05-23T18:27:07Z) - Test-Time Adaptation for Combating Missing Modalities in Egocentric Videos [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Revisiting Active Learning in the Era of Vision Foundation Models [0.0]
ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルなしまたはノイズの多いデータに基づいて訓練される。
これらは、ラベル付け効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。
基礎モデルが有効ALの3つの重要な構成要素にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2024-01-25T22:50:39Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Building One-class Detector for Anything: Open-vocabulary Zero-shot OOD
Detection Using Text-image Models [23.302018871162186]
ゼロショット方式でテキスト画像事前学習モデルを利用する新しい1クラスオープンセットOOD検出器を提案する。
提案手法は,ドメイン内でないものを検出し,多様なOODを検出する柔軟性を提供する。
本手法は,すべてのベンチマークにおいて,従来の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-26T18:58:56Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Parameter-free Online Test-time Adaptation [19.279048049267388]
実世界の様々なシナリオにおいて,テスト時間適応手法が事前学習されたモデルにどのような効果をもたらすかを示す。
我々は特に「保守的」なアプローチを提案し、ラプラシアン適応最大推定(LAME)を用いてこの問題に対処する。
提案手法では,既存の手法よりもシナリオの平均精度がはるかに高く,メモリフットプリントもはるかに高速である。
論文 参考訳(メタデータ) (2022-01-15T00:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。