論文の概要: Efficient Open Set Single Image Test Time Adaptation of Vision Language Models
- arxiv url: http://arxiv.org/abs/2406.00481v2
- Date: Sat, 31 May 2025 11:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.841425
- Title: Efficient Open Set Single Image Test Time Adaptation of Vision Language Models
- Title(参考訳): 視覚言語モデルの効率的な単一画像テスト時間適応
- Authors: Manogna Sreenivas, Soma Biswas,
- Abstract要約: 動的で現実世界の環境にモデルを適応させることは、ディープラーニングにおける重要な課題である。
動的に更新された機能バンクを利用して信頼性の高いテストサンプルを識別する新しいフレームワークであるROSITAを提案する。
このアプローチは、未知のサンプルを拒絶しながら、既知のクラスに対するドメインシフトにモデルを効果的に適用する。
- 参考スコア(独自算出の注目度): 15.621092104244003
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adapting models to dynamic, real-world environments characterized by shifting data distributions and unseen test scenarios is a critical challenge in deep learning. In this paper, we consider a realistic and challenging Test-Time Adaptation setting, where a model must continuously adapt to test samples that arrive sequentially, one at a time, while distinguishing between known and unknown classes. Current Test-Time Adaptation methods operate under closed-set assumptions or batch processing, differing from the real-world open-set scenarios. We address this limitation by establishing a comprehensive benchmark for {\em Open-set Single-image Test-Time Adaptation using Vision-Language Models}. Furthermore, we propose ROSITA, a novel framework that leverages dynamically updated feature banks to identify reliable test samples and employs a contrastive learning objective to improve the separation between known and unknown classes. Our approach effectively adapts models to domain shifts for known classes while rejecting unfamiliar samples. Extensive experiments across diverse real-world benchmarks demonstrate that ROSITA sets a new state-of-the-art in open-set TTA, achieving both strong performance and computational efficiency for real-time deployment. Our code can be found at the project site https://manogna-s.github.io/rosita/
- Abstract(参考訳): データ分散と見えないテストシナリオのシフトを特徴とする、動的で現実的な環境へのモデルの適用は、ディープラーニングにおける重要な課題である。
本稿では,テスト時間適応の現実的かつ挑戦的な設定について考察する。そこでは,モデルが未知のクラスと未知のクラスを区別しながら,順次やってくるテストサンプルに連続的に適応しなければならない。
現在のTest-Time Adaptationメソッドは、実世界のオープンセットのシナリオと異なり、クローズドセットの仮定やバッチ処理の下で動作します。
我々は、ビジョンランゲージモデルを用いたオープンセット単イメージテスト時間適応のための包括的なベンチマークを確立することで、この制限に対処する。
さらに、動的に更新された特徴バンクを利用して信頼性の高いテストサンプルを識別する新しいフレームワークROSITAを提案する。
このアプローチは、未知のサンプルを拒絶しながら、既知のクラスに対するドメインシフトにモデルを効果的に適用する。
様々な実世界のベンチマークによる大規模な実験により、ROSITAはオープンソースのTTAに新たな最先端の状態を設定し、リアルタイムデプロイメントに強力なパフォーマンスと計算効率を実現することが示されている。
私たちのコードはプロジェクトのサイトhttps://manogna-s.github.io/rosita/にある。
関連論文リスト
- DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Harnessing Large Language and Vision-Language Models for Robust Out-of-Distribution Detection [11.277049921075026]
Out-of-distribution (OOD) 検出はゼロショットアプローチで大幅に進歩した。
本稿では,Far-OODシナリオとNear-OODシナリオの両方において,ゼロショットOOD検出性能を向上させる新しい手法を提案する。
本稿では,提案フレームワークを目標分布に適合させるために,新しい数発のプロンプトチューニングと視覚的プロンプトチューニングを導入する。
論文 参考訳(メタデータ) (2025-01-09T13:36:37Z) - Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - SOOD-ImageNet: a Large-Scale Dataset for Semantic Out-Of-Distribution Image Classification and Semantic Segmentation [6.21476985578569]
コンピュータビジョンにおけるアウト・オブ・ディストリビューション(OOD)検出は重要な研究領域である。
SOOD-ImageNetは56のクラスにまたがる1.6万の画像からなる新しいデータセットである。
OOD条件下でのイメージ分類やセマンティックセグメンテーションなどの一般的なコンピュータビジョンタスクのために設計されている。
論文 参考訳(メタデータ) (2024-09-02T09:37:39Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models [3.0495235326282186]
ディープラーニングでは、分散シフトに対する堅牢性を維持することが重要です。
この研究は、視覚言語基礎モデルをテスト時に適用するための幅広い可能性を探究する。
論文 参考訳(メタデータ) (2024-05-23T18:27:07Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Revisiting Active Learning in the Era of Vision Foundation Models [0.0]
ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルなしまたはノイズの多いデータに基づいて訓練される。
これらは、ラベル付け効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。
基礎モデルが有効ALの3つの重要な構成要素にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2024-01-25T22:50:39Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Building One-class Detector for Anything: Open-vocabulary Zero-shot OOD
Detection Using Text-image Models [23.302018871162186]
ゼロショット方式でテキスト画像事前学習モデルを利用する新しい1クラスオープンセットOOD検出器を提案する。
提案手法は,ドメイン内でないものを検出し,多様なOODを検出する柔軟性を提供する。
本手法は,すべてのベンチマークにおいて,従来の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-26T18:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。