論文の概要: Effectiveness of Vision Language Models for Open-world Single Image Test Time Adaptation
- arxiv url: http://arxiv.org/abs/2406.00481v1
- Date: Sat, 1 Jun 2024 16:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:55:04.480968
- Title: Effectiveness of Vision Language Models for Open-world Single Image Test Time Adaptation
- Title(参考訳): オープンワールド単一画像テスト時間適応のためのビジョン言語モデルの有効性
- Authors: Manogna Sreenivas, Soma Biswas,
- Abstract要約: 単体テスト時間適応の現実的な課題に対処する新しい枠組みを提案する。
私たちは、CLIPのような大規模ビジョン言語モデルを活用して、画像毎のリアルタイム適応を可能にします。
提案するフレームワークROSITAはこれらのコンポーネントを組み合わせて、ビジョン言語モデルのオンライン適応を可能にする。
- 参考スコア(独自算出の注目度): 15.621092104244003
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a novel framework to address the real-world challenging task of Single Image Test Time Adaptation in an open and dynamic environment. We leverage large scale Vision Language Models like CLIP to enable real time adaptation on a per-image basis without access to source data or ground truth labels. Since the deployed model can also encounter unseen classes in an open world, we first employ a simple and effective Out of Distribution (OOD) detection module to distinguish between weak and strong OOD samples. We propose a novel contrastive learning based objective to enhance the discriminability between weak and strong OOD samples by utilizing small, dynamically updated feature banks. Finally, we also employ a classification objective for adapting the model using the reliable weak OOD samples. The proposed framework ROSITA combines these components, enabling continuous online adaptation of Vision Language Models on a single image basis. Extensive experimentation on diverse domain adaptation benchmarks validates the effectiveness of the proposed framework. Our code can be found at the project site https://manogna-s.github.io/rosita/
- Abstract(参考訳): オープンでダイナミックな環境での単一画像テスト時間適応の現実的な課題に対処する新しい枠組みを提案する。
私たちは、CLIPのような大規模ビジョン言語モデルを利用して、ソースデータや地上の真実ラベルにアクセスすることなく、画像ごとのリアルタイム適応を可能にします。
デプロイされたモデルは、オープンな世界でも目に見えないクラスに遭遇する可能性があるので、まず、弱いOODサンプルと強いOODサンプルを区別するために、シンプルで効果的なout of Distribution(OOD)検出モジュールを使用します。
そこで本研究では,小規模で動的に更新された特徴バンクを用いて,弱いOODサンプルと強いOODサンプルの識別性を高めることを目的とした,新しいコントラスト学習手法を提案する。
最後に、信頼性のある弱いOODサンプルを用いてモデルを適用するための分類目的も採用する。
提案するフレームワークROSITAはこれらのコンポーネントを組み合わせて,ビジョン言語モデルの連続的なオンライン適応を可能にする。
多様なドメイン適応ベンチマークに関する大規模な実験は、提案フレームワークの有効性を検証する。
私たちのコードはプロジェクトのサイトhttps://manogna-s.github.io/rosita/にある。
関連論文リスト
- DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Harnessing Large Language and Vision-Language Models for Robust Out-of-Distribution Detection [11.277049921075026]
Out-of-distribution (OOD) 検出はゼロショットアプローチで大幅に進歩した。
本稿では,Far-OODシナリオとNear-OODシナリオの両方において,ゼロショットOOD検出性能を向上させる新しい手法を提案する。
本稿では,提案フレームワークを目標分布に適合させるために,新しい数発のプロンプトチューニングと視覚的プロンプトチューニングを導入する。
論文 参考訳(メタデータ) (2025-01-09T13:36:37Z) - Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - SOOD-ImageNet: a Large-Scale Dataset for Semantic Out-Of-Distribution Image Classification and Semantic Segmentation [6.21476985578569]
コンピュータビジョンにおけるアウト・オブ・ディストリビューション(OOD)検出は重要な研究領域である。
SOOD-ImageNetは56のクラスにまたがる1.6万の画像からなる新しいデータセットである。
OOD条件下でのイメージ分類やセマンティックセグメンテーションなどの一般的なコンピュータビジョンタスクのために設計されている。
論文 参考訳(メタデータ) (2024-09-02T09:37:39Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models [3.0495235326282186]
ディープラーニングでは、分散シフトに対する堅牢性を維持することが重要です。
この研究は、視覚言語基礎モデルをテスト時に適用するための幅広い可能性を探究する。
論文 参考訳(メタデータ) (2024-05-23T18:27:07Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Revisiting Active Learning in the Era of Vision Foundation Models [0.0]
ファンデーションビジョンまたはビジョン言語モデルは、大きなラベルなしまたはノイズの多いデータに基づいて訓練される。
これらは、ラベル付け効率を最大化することを目的としたアクティブラーニング(AL)に自然に適合する。
基礎モデルが有効ALの3つの重要な構成要素にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2024-01-25T22:50:39Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。