Fugu-MT 論文翻訳(概要): Online Gaussian Test-Time Adaptation of Vision-Language Models

論文の概要: Online Gaussian Test-Time Adaptation of Vision-Language Models

arxiv url: http://arxiv.org/abs/2501.04352v1
Date: Wed, 08 Jan 2025 08:49:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.588836
Title: Online Gaussian Test-Time Adaptation of Vision-Language Models
Title（参考訳）: 視覚言語モデルのオンラインガウステスト時間適応
Authors: Clément Fuchs, Maxime Zanella, Christophe De Vleeschouwer,
Abstract要約: オンラインガウス適応(英語: Online Gaussian Adaptation, OGA)は、ガウス分布を用いた視覚的特徴の可能性をモデル化する新しい手法である。 OGAは、ほとんどのデータセットや実行で最先端のメソッドよりも優れています。実験により,全OTTA法において,各データセットに対して平均3回以上の平均動作性能を示すOTTA評価プロトコルが不十分であることが判明した。
参考スコア（独自算出の注目度）: 13.90714913643503
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online test-time adaptation (OTTA) of vision-language models (VLMs) has recently garnered increased attention to take advantage of data observed along a stream to improve future predictions. Unfortunately, existing methods rely on dataset-specific hyperparameters, significantly limiting their adaptability to unseen tasks. In response, we propose Online Gaussian Adaptation (OGA), a novel method that models the likelihoods of visual features using Gaussian distributions and incorporates zero-shot priors into an interpretable Maximum A Posteriori (MAP) estimation framework with fixed hyper-parameters across all datasets. We demonstrate that OGA outperforms state-of-the-art methods on most datasets and runs. Additionally, we show that combining OTTA with popular few-shot techniques (a practical yet overlooked setting in prior research) is highly beneficial. Furthermore, our experimental study reveals that common OTTA evaluation protocols, which average performance over at most three runs per dataset, are inadequate due to the substantial variability observed across runs for all OTTA methods. Therefore, we advocate for more rigorous evaluation practices, including increasing the number of runs and considering additional quantitative metrics, such as our proposed Expected Tail Accuracy (ETA), calculated as the average accuracy in the worst 10% of runs. We hope these contributions will encourage more rigorous and diverse evaluation practices in the OTTA community. Code is available at https://github.com/cfuchs2023/OGA .
Abstract（参考訳）: 視覚言語モデル(VLM)のオンラインテスト時間適応(OTTA)は、ストリームに沿って観測されたデータを利用して将来の予測を改善するために、近年注目を集めている。残念ながら、既存のメソッドはデータセット固有のハイパーパラメータに依存しており、目に見えないタスクへの適応性を著しく制限している。これに対し,オンラインガウス適応(OGA)を提案する。これはガウス分布を用いた視覚的特徴の確率をモデル化し,ゼロショット先行値を解釈可能な最大A Posteriori(MAP)推定フレームワークに組み込む新しい手法である。 OGAは、ほとんどのデータセットや実行で最先端のメソッドよりも優れています。さらに,OTTAと一般的なショット技術(先行研究で見落とされがちな設定)を組み合わせることは,非常に有益であることを示す。さらに,本実験の結果から,OTTA法全体の実行時間に平均的な性能を示す共通OTTA評価プロトコルが不十分であることが判明した。そこで,本研究では,ラン数の増加や,最悪の10%のランの平均精度として算出された予測テール精度 (ETA) など,さらなる定量的指標の検討など,より厳密な評価手法を提唱する。これらの貢献により、OTTAコミュニティにおけるより厳格で多様な評価プラクティスが促進されることを願っています。コードはhttps://github.com/cfuchs2023/OGAで入手できる。

関連論文リスト

UNEM: UNrolled Generalized EM for Transductive Few-Shot Learning [35.62208317531141]
我々は「最適化学習」とも呼ばれるアンロールパラダイムを提唱し紹介する。我々のアンローリングアプローチは、様々な統計的特徴分布と事前学習パラダイムをカバーしている。本稿では,下流画像分類作業の細粒度を網羅した包括的実験について報告する。
論文参考訳（メタデータ） (2024-12-21T19:01:57Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
NUDGE: Lightweight Non-Parametric Fine-Tuning of Embeddings for Retrieval [0.7646713951724011]
既存のアプローチは、事前訓練されたモデル自体を微調整するか、より効率的に、事前訓練されたモデルの出力を変換するためにアダプタモデルを訓練する。 NUDGEは、新しい非パラメトリック埋め込みファインチューニングアプローチのファミリーである。 NUDGEは、$k$-NN検索の精度を最大化するために、データレコードの埋め込みを直接修正する。
論文参考訳（メタデータ） (2024-09-04T00:10:36Z)
Enhancing Generalization in Medical Visual Question Answering Tasks via Gradient-Guided Model Perturbation [16.22199565010318]
本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
論文参考訳（メタデータ） (2024-03-05T06:57:37Z)
A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models [19.17722702457403]
現状のArtETLアプローチは、狭義の実験的な設定でのみ強力な性能を示すことを示す。一般化されたラグランジアン法を適応させることにより,バランス項を最適化したCLAP(CLass-Adaptive linear Probe)の目的を提案する。
論文参考訳（メタデータ） (2023-12-20T02:58:25Z)
Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。 DAの明確な検証プロトコルは、文献の悪い実践につながっている。ドメイン適応手法の3つの分野にまたがる課題を示す。
論文参考訳（メタデータ） (2023-09-07T17:44:18Z)
Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。 EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-04-17T10:59:57Z)
A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文参考訳（メタデータ） (2023-03-02T21:48:22Z)
Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文参考訳（メタデータ） (2020-06-19T05:08:43Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。