論文の概要: Bidirectional Prototype-Reward co-Evolution for Test-Time Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.09394v2
- Date: Sat, 12 Jul 2025 06:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:06.932687
- Title: Bidirectional Prototype-Reward co-Evolution for Test-Time Adaptation of Vision-Language Models
- Title(参考訳): 視覚言語モデルのテスト時間適応のための双方向プロトタイプ・リワード共進化
- Authors: Xiaozhen Qiao, Peng Huang, Jiakang Yuan, Xianda Guo, Bowen Ye, Chaocan Xue, Ye Zheng, Zhe Sun, Xuelong Li,
- Abstract要約: テスト時適応(TTA)は,分散シフトに直面した場合の視覚言語モデル(VLM)の性能維持に不可欠である。
BPRE(Underline Bidirectional Prototype-Reward co-Evolution)を提案する。
BPREは、機能品質評価とプロトタイプの進化を相乗的なフィードバックループを通じて統合する。
我々のモデルは、他のSOTA法と比較して一貫して優れた性能を達成し、VLMの一般化能力を向上させる。
- 参考スコア(独自算出の注目度): 38.63571023556356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time adaptation (TTA) is crucial in maintaining performance of Vision Language Models (VLMs) when facing distribution shifts, particularly when the source data or target labels are inaccessible. Existing TTA methods predominantly leverage the output probability distribution of CLIP for feature evaluation, resulting in biases under domain shifts, which cause misclassified features due to text priors or incorrect textual associations. To address these issues, we propose \underline{B}idirectional Prototype-Reward co-Evolution (BPRE), a novel VLMs framework with TTA that integrates feature quality assessment with prototype evolution via a synergistic feedback loop. First, the Multi-dimensional Quality-aware Reward Module (MQRM) is designed to evaluate feature quality and guide prototype refinement precisely. The continuous refinement of prototype quality via Prototype-Reward Interactive Evolution (PRIE) enhances the computation more robust. Through this bidirectional interaction, the precision of rewards and prototype evolution mutually reinforce each other, forming a self-evolving feedback cycle. Extensive experiments conducted on 15 diverse recognition datasets demonstrate that our model consistently achieves superior performance compared to other SOTA methods, and advances VLM generalization capabilities through emphasizing comprehensive feature evaluation.
- Abstract(参考訳): テスト時適応(TTA)は、特にソースデータやターゲットラベルにアクセスできない場合の分散シフトに直面する場合、視覚言語モデル(VLM)の性能を維持する上で重要である。
既存のTTA手法は、特徴評価にCLIPの出力確率分布を主に利用し、ドメインシフトの下でバイアスが発生し、テキストの先行や不正なテキスト関連による誤分類特徴が生じる。
これらの問題に対処するために,TTA を用いた新しい VLM フレームワークである \underline{B}idirectional Prototype-Reward co-Evolution (BPRE) を提案する。
まず,Multi-dimensional Quality-aware Reward Module (MQRM) を用いて,特徴量の評価とプロトタイプの精度向上の指導を行う。
Prototype-Reward Interactive Evolution (PRIE) によるプロトタイプ品質の継続的な改善により、計算がより堅牢になる。
この双方向の相互作用を通じて、報酬の精度とプロトタイプの進化は相互に強化され、自己進化的なフィードバックサイクルを形成する。
15の多種多様な認識データセットを用いて行った大規模な実験により、我々のモデルは、他のSOTA法と比較して一貫して優れた性能を発揮し、総合的な特徴評価を強調することで、VLMの一般化能力の向上を図っている。
関連論文リスト
- Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection [10.834698906236405]
機械学習モデルの堅牢性を保証するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
マルチモーダルモデルの最近の進歩は、検出性能を高めるために複数のモダリティを活用する可能性を示している。
マルチモーダルOOD検出のための新しいプラグイン・アンド・プレイフレームワークであるDynamic Prototype Updating (DPU)を提案する。
論文 参考訳(メタデータ) (2024-11-12T22:43:16Z) - PCoTTA: Continual Test-Time Adaptation for Multi-Task Point Cloud Understanding [40.42904797189929]
マルチタスクポイントクラウド理解におけるCoTTA(Continuous Test-Time Adaptation)の革新的フレームワークであるPCoTTAを提案する。
我々のPCoTTAは、自動プロトタイプ混合(APM)、ガウススプレート機能シフト(GSFS)、コントラストプロトタイプ反発(CPR)の3つの重要なコンポーネントで構成されています。
CPRは、最も近い学習可能なプロトタイプをテスト機能に近づけ、他のプロトタイプから切り離して、各プロトタイプを適応中に区別できるようにするために提案されている。
論文 参考訳(メタデータ) (2024-11-01T14:41:36Z) - Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models [11.545127156146368]
本稿では,事前学習型視覚言語モデル(VLM)のための新しいテスト時間適応手法であるDual Prototype Evolving (DPE)を紹介する。
テスト期間中にターゲットクラスに対するより正確なマルチモーダル表現を段階的にキャプチャするために、テキストとビジュアルの2つのプロトタイプを作成し、進化させます。
提案したDPEは,従来の最先端手法を一貫して上回りながら,競争力のある計算効率を示す。
論文 参考訳(メタデータ) (2024-10-16T17:59:49Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Coded Residual Transform for Generalizable Deep Metric Learning [34.100840501900706]
我々は,その一般化能力を大幅に向上させるために,深度学習のための符号化残差変換(CRT)と呼ばれる新しい手法を提案する。
CRTは、多彩なプロトタイプへのプロジェクションに基づいた補完的な視点のセットからフィーチャーマップを表現し、エンコードする。
実験結果とアブレーション実験により,提案手法は最先端の深層学習法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T06:17:31Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。