論文の概要: Bidirectional Prototype-Reward co-Evolution for Test-Time Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.09394v1
- Date: Wed, 12 Mar 2025 13:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:05.532191
- Title: Bidirectional Prototype-Reward co-Evolution for Test-Time Adaptation of Vision-Language Models
- Title(参考訳): 視覚言語モデルのテスト時間適応のための双方向プロトタイプ・リワード共進化
- Authors: Xiaozhen Qiao, Peng Huang, Jiakang Yuan, Xianda Guo, Bowen Ye, Zhe Sun, Xuelong Li,
- Abstract要約: Bidirectional Prototype-Reward Co-Evolution (BPRE)は視覚言語モデル(VLM)のための新しいTTAフレームワークである
BPREは、機能品質評価とプロトタイプの進化を相乗的なフィードバックループを通じて統合する。
BPREは、最先端の手法に比べて常に優れた平均性能を達成している。
- 参考スコア(独自算出の注目度): 39.238426311239564
- License:
- Abstract: Test-time adaptation (TTA) is crucial in maintaining Vision-Language Models (VLMs) performance when facing real-world distribution shifts, particularly when the source data or target labels are inaccessible. Existing TTA methods rely on CLIP's output probability distribution for feature evaluation, which can introduce biases under domain shifts. This misalignment may cause features to be misclassified due to text priors or incorrect textual associations. To address these limitations, we propose Bidirectional Prototype-Reward co-Evolution (BPRE), a novel TTA framework for VLMs that integrates feature quality assessment with prototype evolution through a synergistic feedback loop. BPRE first employs a Multi-Dimensional Quality-Aware Reward Module to evaluate feature quality and guide prototype refinement precisely. The continuous refinement of prototype quality through Prototype-Reward Interactive Evolution will subsequently enhance the computation of more robust Multi-Dimensional Quality-Aware Reward Scores. Through the bidirectional interaction, the precision of rewards and the evolution of prototypes mutually reinforce each other, forming a self-evolving cycle. Extensive experiments are conducted across 15 diverse recognition datasets encompassing natural distribution shifts and cross-dataset generalization scenarios. Results demonstrate that BPRE consistently achieves superior average performance compared to state-of-the-art methods across different model architectures, such as ResNet-50 and ViT-B/16. By emphasizing comprehensive feature evaluation and bidirectional knowledge refinement, BPRE advances VLM generalization capabilities, offering a new perspective on TTA.
- Abstract(参考訳): テスト時間適応(TTA)は、特にソースデータやターゲットラベルへのアクセスが不可能な場合、実世界の分散シフトに直面している場合、ビジョン・ランゲージ・モデル(VLM)のパフォーマンスを維持する上で重要である。
既存のTTA手法は、CLIPの出力確率分布を特徴評価に頼っている。
このミスアライメントは、テキストの先行や誤ったテキストの関連によって、特徴が誤って分類される可能性がある。
これらの制約に対処するため,VLM のための新しい TTA フレームワークである Bidirectional Prototype-Reward co-Evolution (BPRE) を提案する。
BPREは、まず多次元品質認識リワードモジュールを使用して、特徴品質を評価し、プロトタイプの改良をガイドする。
Prototype-Reward Interactive Evolutionによるプロトタイプ品質の継続的な改善により、より堅牢な多次元品質認識リワードスコアの計算が強化される。
双方向の相互作用を通じて、報酬の精度とプロトタイプの進化は相互に強化され、自己進化サイクルを形成する。
自然分布シフトとデータセット間の一般化シナリオを含む15の多様な認識データセットに対して、広範囲にわたる実験が実施されている。
その結果,BPRE は ResNet-50 や ViT-B/16 など,さまざまなモデルアーキテクチャにおける最先端の手法と比較して,常に優れた平均性能を達成していることがわかった。
包括的特徴評価と双方向知識改善を強調することにより、BPREはVLMの一般化能力を向上し、TTAに関する新たな視点を提供する。
関連論文リスト
- DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection [10.834698906236405]
機械学習モデルの堅牢性を保証するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
マルチモーダルモデルの最近の進歩は、検出性能を高めるために複数のモダリティを活用する可能性を示している。
マルチモーダルOOD検出のための新しいプラグイン・アンド・プレイフレームワークであるDynamic Prototype Updating (DPU)を提案する。
論文 参考訳(メタデータ) (2024-11-12T22:43:16Z) - PCoTTA: Continual Test-Time Adaptation for Multi-Task Point Cloud Understanding [40.42904797189929]
マルチタスクポイントクラウド理解におけるCoTTA(Continuous Test-Time Adaptation)の革新的フレームワークであるPCoTTAを提案する。
我々のPCoTTAは、自動プロトタイプ混合(APM)、ガウススプレート機能シフト(GSFS)、コントラストプロトタイプ反発(CPR)の3つの重要なコンポーネントで構成されています。
CPRは、最も近い学習可能なプロトタイプをテスト機能に近づけ、他のプロトタイプから切り離して、各プロトタイプを適応中に区別できるようにするために提案されている。
論文 参考訳(メタデータ) (2024-11-01T14:41:36Z) - Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models [11.545127156146368]
本稿では,事前学習型視覚言語モデル(VLM)のための新しいテスト時間適応手法であるDual Prototype Evolving (DPE)を紹介する。
テスト期間中にターゲットクラスに対するより正確なマルチモーダル表現を段階的にキャプチャするために、テキストとビジュアルの2つのプロトタイプを作成し、進化させます。
提案したDPEは,従来の最先端手法を一貫して上回りながら,競争力のある計算効率を示す。
論文 参考訳(メタデータ) (2024-10-16T17:59:49Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Coded Residual Transform for Generalizable Deep Metric Learning [34.100840501900706]
我々は,その一般化能力を大幅に向上させるために,深度学習のための符号化残差変換(CRT)と呼ばれる新しい手法を提案する。
CRTは、多彩なプロトタイプへのプロジェクションに基づいた補完的な視点のセットからフィーチャーマップを表現し、エンコードする。
実験結果とアブレーション実験により,提案手法は最先端の深層学習法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T06:17:31Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。