論文の概要: Adapting Vision-Language Models Without Labels: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2508.05547v1
- Date: Thu, 07 Aug 2025 16:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.956147
- Title: Adapting Vision-Language Models Without Labels: A Comprehensive Survey
- Title(参考訳): ラベルのない視覚言語モデルへの適応:包括的調査
- Authors: Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink,
- Abstract要約: VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。
本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
- 参考スコア(独自算出の注目度): 74.17944178027015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities across a wide range of tasks. However, their performance often remains suboptimal when directly applied to specific downstream scenarios without task-specific adaptation. To enhance their utility while preserving data efficiency, recent research has increasingly focused on unsupervised adaptation methods that do not rely on labeled data. Despite the growing interest in this area, there remains a lack of a unified, task-oriented survey dedicated to unsupervised VLM adaptation. To bridge this gap, we present a comprehensive and structured overview of the field. We propose a taxonomy based on the availability and nature of unlabeled visual data, categorizing existing approaches into four key paradigms: Data-Free Transfer (no data), Unsupervised Domain Transfer (abundant data), Episodic Test-Time Adaptation (batch data), and Online Test-Time Adaptation (streaming data). Within this framework, we analyze core methodologies and adaptation strategies associated with each paradigm, aiming to establish a systematic understanding of the field. Additionally, we review representative benchmarks across diverse applications and highlight open challenges and promising directions for future research. An actively maintained repository of relevant literature is available at https://github.com/tim-learn/Awesome-LabelFree-VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
しかし、タスク固有の適応なしに特定の下流シナリオに直接適用された場合、そのパフォーマンスは亜最適のままであることが多い。
データ効率を保ちながら実用性を高めるため、最近の研究はラベル付きデータに依存しない教師なし適応手法に重点を置いている。
この分野への関心が高まりつつあるにもかかわらず、教師なしのVLM適応に特化した統合されたタスク指向のサーベイはいまだに存在しない。
このギャップを埋めるために、我々は、その分野の包括的で構造化された概要を提示する。
データフリー転送(データなし)、教師なしドメイン転送(データなし)、エピソードテスト時間適応(バッチデータ)、オンラインテスト時間適応(ストリーミングデータ)の4つの主要なパラダイムに分類し、ラベル付きビジュアルデータの可用性と性質に基づく分類法を提案する。
本フレームワークでは,各パラダイムに関連するコア方法論と適応戦略を解析し,分野の体系的理解を確立することを目的とする。
さらに、さまざまなアプリケーションにまたがる代表的ベンチマークをレビューし、オープンな課題と将来の研究への有望な方向性を強調します。
関連文献のリポジトリはhttps://github.com/tim-learn/Awesome-LabelFree-VLMsで公開されている。
関連論文リスト
- TAPS : Frustratingly Simple Test Time Active Learning for VLMs [0.0]
テスト時間最適化により、モデルはパラメータをオンザフライで更新することで、推論中に新しいデータに適応できる。
本研究では,不確実なサンプルを適応的にクエリし,動的に更新するテスト時アクティブラーニングフレームワークを提案する。
我々のフレームワークは、自律システムや医療診断などの安全クリティカルなアプリケーションに現実世界を配置するための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-26T18:04:49Z) - Propensity-driven Uncertainty Learning for Sample Exploration in Source-Free Active Domain Adaptation [19.620523416385346]
ソースフリーアクティブドメイン適応(SFADA)は、ソースデータにアクセスせずに、トレーニング済みのモデルを新しいドメインに適応するという課題に対処する。
このシナリオは、データプライバシ、ストレージ制限、ラベル付けコストが重要な懸念事項である現実世界のアプリケーションに特に関係している。
Propensity-driven Uncertainty Learning (ProULearn) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T10:05:25Z) - Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model [41.55165760439727]
視覚言語モデル(VLM)は、さまざまな下流タスクに取り組むために、トレーニング済みの大きなモデルを活用することで、機械学習に革命をもたらした。
ラベル効率適応と推論のためのグラフベースの手法を提案する。
提案手法は,テキストプロンプト,少数ショット例,テストサンプルのグラフを動的に構築する。
論文 参考訳(メタデータ) (2024-12-24T09:15:00Z) - One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering [31.025439143093585]
VLM(Vision-Language Models)は、Webスケールのマルチモーダルデータセットを活用することで、VQA(Visual Question Answering)タスクにおいて大きな可能性を秘めている。
これらのモデルは、新しいタスクに適応する際に破滅的な忘れ物のために、継続的な学習に苦しむことが多い。
本稿では,外部モデルに頼るのではなく,VLMの言語生成能力を活用した最初のデータフリー手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T16:04:59Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。