論文の概要: Ramen: Robust Test-Time Adaptation of Vision-Language Models with Active Sample Selection
- arxiv url: http://arxiv.org/abs/2604.21728v2
- Date: Mon, 27 Apr 2026 13:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.93549
- Title: Ramen: Robust Test-Time Adaptation of Vision-Language Models with Active Sample Selection
- Title(参考訳): Ramen: アクティブサンプル選択による視覚言語モデルのロバストなテスト時間適応
- Authors: Wenxuan Bao, Yanjun Zhao, Xiyuan Yang, Jingrui He,
- Abstract要約: アクティブサンプル選択による堅牢なテスト時間適応のためのフレームワークであるRamenを提示する。
入ってくるテストサンプル毎に、Ramenは、以前に見たデータから、関連するサンプルのカスタマイズされたバッチを取得する。
複数の画像破損とドメインシフトベンチマークの実験は、Ramenが強力で一貫したパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 45.20212930761406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained vision-language models such as CLIP exhibit strong zero-shot generalization but remain sensitive to distribution shifts. Test-time adaptation adapts models during inference without access to source data or target labels, offering a practical way to handle such shifts. However, existing methods typically assume that test samples come from a single, consistent domain, while in practice, test data often include samples from mixed domains with distinct characteristics. Consequently, their performance degrades under mixed-domain settings. To address this, we present Ramen, a framework for robust test-time adaptation through active sample selection. For each incoming test sample, Ramen retrieves a customized batch of relevant samples from previously seen data based on two criteria: domain consistency, which ensures that adaptation focuses on data from similar domains, and prediction balance, which mitigates adaptation bias caused by skewed predictions. To improve efficiency, Ramen employs an embedding-gradient cache that stores the embeddings and sample-level gradients of past test images. The stored embeddings are used to retrieve relevant samples, and the corresponding gradients are aggregated for model updates, eliminating the need for any additional forward or backward passes. Our theoretical analysis provides insight into why the proposed adaptation mechanism is effective under mixed-domain shifts. Experiments on multiple image corruption and domain-shift benchmarks demonstrate that Ramen achieves strong and consistent performance, offering robust and efficient adaptation in complex mixed-domain scenarios. Our code is available at https://github.com/baowenxuan/Ramen .
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデルは、強いゼロショット一般化を示すが、分散シフトには敏感である。
テストタイム適応は、ソースデータやターゲットラベルにアクセスせずに推論中にモデルを適応させ、そのようなシフトを処理する実用的な方法を提供する。
しかし、既存のメソッドは通常、テストサンプルは単一の一貫したドメインから来ていると仮定するが、実際には、テストデータは異なる特性を持つ混合ドメインからのサンプルを含んでいることが多い。
その結果、パフォーマンスは混合ドメイン設定で低下する。
そこで本稿では,アクティブサンプル選択による堅牢なテスト時間適応のためのフレームワークであるRamenを紹介する。
ドメイン整合性(ドメイン整合性)は、類似したドメインのデータに適応することを保証するもので、予測バランス(予測バイアス)は、歪んだ予測による適応バイアスを緩和する。
効率を改善するため、Ramenでは、過去のテストイメージの埋め込みとサンプルレベルの勾配を格納する埋め込み段階のキャッシュを使用している。
格納された埋め込みは関連するサンプルを取得するために使用され、対応する勾配はモデル更新のために集約されるため、追加の前方または後方パスは不要である。
提案手法が混合ドメインシフトにおいて有効である理由を理論的解析により明らかにした。
複数の画像破損とドメインシフトベンチマークの実験は、Ramenが堅牢で一貫したパフォーマンスを実現し、複雑な混合ドメインシナリオに堅牢で効率的な適応を提供することを示した。
私たちのコードはhttps://github.com/baowenxuan/Ramenで公開されています。
関連論文リスト
- Back to Source: Open-Set Continual Test-Time Adaptation via Domain Compensation [18.70132691409063]
Test-Time Adaptationは、推論時間におけるトレーニングとテストドメイン間の分散シフトを軽減することを目的としている。
ドメインとセマンティックシフトの結合は、しばしば特徴空間を崩壊させ、分類とアウト・オブ・ディストリビューションの検出の両方を著しく劣化させる。
ドメイン適応とOOD検出を相乗的で閉ループで堅牢に行う軽量かつ効果的なフレームワークであるDOCOを提案する。
論文 参考訳(メタデータ) (2026-04-23T15:29:29Z) - Test-Time Adaptive Object Detection with Foundation Model [39.96498227103011]
本稿では,最初の基礎モデルを用いたテスト時適応オブジェクト検出手法を提案する。
視覚言語検出駆動テスト時間適応のためのマルチモーダルPromptベースのMean-Teacherフレームワークを設計する。
テストバッチ毎に高品質な擬似ラベルを保証するため、インスタンス動的メモリを維持します。
論文 参考訳(メタデータ) (2025-10-29T05:19:38Z) - PCSR: Pseudo-label Consistency-Guided Sample Refinement for Noisy Correspondence Learning [17.302186298424836]
クロスモーダル検索は、意味的類似性によって異なるモダリティを整列することを目的としている。
既存の手法では、画像とテキストのペアが完全に整列していると仮定し、実データでノイズ対応を見渡すことが多い。
論文 参考訳(メタデータ) (2025-09-19T05:41:17Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [69.41389326333771]
トレーニングデータとテストデータの間に大きな分散ギャップが存在する場合、視覚言語の基礎モデルは信頼できない。
本稿では,DOTA(DistributiOnal Test-time Adaptation)を提案する。
この分散中心のアプローチは、モデルが継続的に学習し、デプロイメント環境に適応することを可能にする。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Resilient Practical Test-Time Adaptation: Soft Batch Normalization
Alignment and Entropy-driven Memory Bank [24.096250529224914]
本稿では,パラメータのレジリエンスとデータ品質に着目した実践的なテスト時間適応手法(ResiTTA)を提案する。
我々は、タイムライン、過信サンプルの持続性、適応時の高品質なデータに対するサンプル不確かさを考慮に入れたエントロピー駆動型メモリバンクを使用する。
さまざまなベンチマークデータセット間でResiTTAを実証的に検証し、最先端のパフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-26T03:24:55Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。