Fugu-MT 論文翻訳(概要): Bayesian Test-Time Adaptation for Vision-Language Models

論文の概要: Bayesian Test-Time Adaptation for Vision-Language Models

arxiv url: http://arxiv.org/abs/2503.09248v1
Date: Wed, 12 Mar 2025 10:42:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.706069
Title: Bayesian Test-Time Adaptation for Vision-Language Models
Title（参考訳）: 視覚言語モデルに対するベイズテスト時間適応
Authors: Lihua Zhou, Mao Ye, Shuaifeng Li, Nianxin Li, Xiatian Zhu, Lei Deng, Hongbin Liu, Zhen Lei,
Abstract要約: CLIPのような事前訓練された視覚言語モデルによるテスト時適応は、新しい、潜在的に配布外テストデータにモデルを適応させることを目的としている。我々は、クラス埋め込みを継続的に更新して妥当性を適応させる新しいアプローチ、textbfBayesian textbfClass textbfAdaptation (BCA)を提案する。
参考スコア（独自算出の注目度）: 51.93247610195295
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-time adaptation with pre-trained vision-language models, such as CLIP, aims to adapt the model to new, potentially out-of-distribution test data. Existing methods calculate the similarity between visual embedding and learnable class embeddings, which are initialized by text embeddings, for zero-shot image classification. In this work, we first analyze this process based on Bayes theorem, and observe that the core factors influencing the final prediction are the likelihood and the prior. However, existing methods essentially focus on adapting class embeddings to adapt likelihood, but they often ignore the importance of prior. To address this gap, we propose a novel approach, \textbf{B}ayesian \textbf{C}lass \textbf{A}daptation (BCA), which in addition to continuously updating class embeddings to adapt likelihood, also uses the posterior of incoming samples to continuously update the prior for each class embedding. This dual updating mechanism allows the model to better adapt to distribution shifts and achieve higher prediction accuracy. Our method not only surpasses existing approaches in terms of performance metrics but also maintains superior inference rates and memory usage, making it highly efficient and practical for real-world applications.
Abstract（参考訳）: CLIPのような事前訓練された視覚言語モデルによるテスト時適応は、新しい、潜在的に配布外テストデータにモデルを適応させることを目的としている。既存の手法では、ゼロショット画像分類のために、テキスト埋め込みによって初期化される視覚埋め込みと学習可能なクラス埋め込みの類似性を計算している。本研究ではベイズ定理に基づいてまずこの過程を解析し、最終的な予測に影響を及ぼす中核的な要因が可能性と先行であることを確認する。しかし、既存のメソッドは基本的にクラス埋め込みを適合させるために適応することに重点を置いているが、それらはしばしば事前の重要性を無視している。このギャップに対処するために、新しいアプローチである \textbf{B}ayesian \textbf{C}lass \textbf{A}daptation (BCA)を提案する。この二重更新機構により、モデルの分散シフトへの適応性が向上し、予測精度が向上する。提案手法は,性能指標の点で既存の手法に勝るだけでなく,推論率やメモリ使用量も優れているため,実世界のアプリケーションにとって極めて効率的かつ実用的な手法である。

関連論文リスト

Bayesian Test-time Adaptation for Object Recognition and Detection with Vision-language Models [86.53246292425699]
我々は、オブジェクト認識と検出の両方のためのTTAのためのトレーニングフリーフレームワークであるBCA+を提案する。我々はベイズ推論問題として適応を定式化し、キャッシュベースの予測で初期VLM出力を融合することで最終的な予測を生成する。 BCA+は、認識と検出のベンチマークの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-10-03T06:27:33Z)
Co-STAR: Collaborative Curriculum Self-Training with Adaptive Regularization for Source-Free Video Domain Adaptation [5.122518070721238]
Co-STARはカリキュラム学習と、ソース学習された教師と対照的な視覚言語モデル(CLIP)の協調的自己学習を統合しているカリキュラム学習アプローチでは,教師とCLIPの双方向予測アライメントを測定し,信頼性と不確実性の予測のバランスをとる信頼性に基づく重み関数を用いる。さらに適応性を向上させるために,適応型カリキュラム正規化を提案し,その信頼性スコアと予測安定性に基づいて,確率的,適応的な方法でサンプルの学習優先度を変更する。
論文参考訳（メタデータ） (2025-04-15T23:47:35Z)
BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。 BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文参考訳（メタデータ） (2024-06-17T08:16:24Z)
Adapting Prediction Sets to Distribution Shifts Without Labels [16.478151550456804]
我々は、共形予測(CP)と呼ばれる標準設定値予測フレームワークに焦点を当てる。本稿では, シフトテスト領域からのラベルなしデータのみを用いて, 実用性を向上させる方法について検討する。提案手法は,既存のベースラインよりも一貫した改善を実現し,完全教師付き手法の性能にほぼ一致することを示す。
論文参考訳（メタデータ） (2024-06-03T15:16:02Z)
Continual Adapter Tuning with Semantic Shift Compensation for Class-Incremental Learning [23.169314728000558]
クラスインクリメンタルラーニング(CIL)は、モデルが破滅的な忘れを克服しつつ、新しいクラスを継続的に学習できるようにすることを目的としている。本稿では,連続学習の文脈において,異なるパラメータ効率チューニング(PET)手法を再検討する。適応チューニングは,各学習セッションにおいてパラメータ拡張がなくても,プロンプトベースの手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-29T05:23:12Z)
Consistency Regularization for Generalizable Source-free Domain Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-03T07:45:53Z)
RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-07-05T12:49:02Z)
Guiding The Last Layer in Federated Learning with Pre-Trained Models [18.382057374270143]
フェデレートラーニング(FL)は、データを共有することなく、多数の参加者にまたがってモデルをトレーニングできる新興パラダイムである。 NCM(Nearest Class Means)を用いた分類ヘッドの適合は,既存の提案よりも正確に,桁違いに効率的に行えることを示す。
論文参考訳（メタデータ） (2023-06-06T18:02:02Z)
Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文参考訳（メタデータ） (2023-05-17T17:47:19Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Class-Incremental Learning with Strong Pre-trained Models [97.84755144148535]
CIL(Class-incremental Learning)は、少数のクラス(ベースクラス)から始まる設定で広く研究されている。我々は、多数のベースクラスで事前訓練された強力なモデルから始まるCILの実証済み実世界の設定について検討する。提案手法は、解析されたCIL設定すべてに頑健で一般化されている。
論文参考訳（メタデータ） (2022-04-07T17:58:07Z)
The Hitchhiker's Guide to Prior-Shift Adaptation [41.4341627937948]
本稿では,混乱行列に基づく事前推定手法の既知の問題に対処する新しい手法を提案する。きめ細かい画像分類データセットの実験は、事前シフト推定のベストプラクティスに関する洞察を与える。自然にバランスの取れない2つのタスクにベストプラクティスを適用すると、Webcrawledイメージと植物種分類から学習することで、それぞれ1.1%と3.4%の認識精度が向上した。
論文参考訳（メタデータ） (2021-06-22T11:55:51Z)
Bayesian Few-Shot Classification with One-vs-Each P\'olya-Gamma Augmented Gaussian Processes [7.6146285961466]
FSC(Few-shot Classification)は、人間のような機械学習への道のりの重要なステップである。 P'olya-Gamma augmentation と one-vs-each softmax approximation の新たな組み合わせを提案する。標準的な数ショット分類ベンチマークと数ショットドメイン転送タスクの両方において、精度の向上と不確かさの定量化を実証した。
論文参考訳（メタデータ） (2020-07-20T19:10:41Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)
Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2020-03-14T22:29:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。