論文の概要: Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner
- arxiv url: http://arxiv.org/abs/2602.04337v1
- Date: Wed, 04 Feb 2026 09:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.441786
- Title: Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner
- Title(参考訳): 人間アノテーションフリーマンにおける微調整事前学習型視覚言語モデル
- Authors: Qian-Wei Wang, Guanghao Meng, Ren Cai, Yaguang Song, Shu-Tao Xia,
- Abstract要約: CLIPのような大規模視覚言語モデル(VLM)は、ゼロショットの強い一般化を示すが、下流のタスクに適応するためには通常、コストのかかるラベル付きデータを必要とする。
既存の教師なしの自己学習手法は擬似ラベル化に依存しているが、信頼できない信頼度フィルタリング、確認バイアス、低信頼サンプルの未利用に悩まされることが多い。
我々は,デュアルモデル,クロスモーダル協調機構を通じてラベルのないデータを活用する,教師なし適応フレームワークであるCollaborative Fine-Tuning (CoFT)を提案する。
- 参考スコア(独自算出の注目度): 46.140724013144194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale vision-language models (VLMs) such as CLIP exhibit strong zero-shot generalization, but adapting them to downstream tasks typically requires costly labeled data. Existing unsupervised self-training methods rely on pseudo-labeling, yet often suffer from unreliable confidence filtering, confirmation bias, and underutilization of low-confidence samples. We propose Collaborative Fine-Tuning (CoFT), an unsupervised adaptation framework that leverages unlabeled data through a dual-model, cross-modal collaboration mechanism. CoFT introduces a dual-prompt learning strategy with positive and negative textual prompts to explicitly model pseudo-label cleanliness in a sample-dependent manner, removing the need for hand-crafted thresholds or noise assumptions. The negative prompt also regularizes lightweight visual adaptation modules, improving robustness under noisy supervision. CoFT employs a two-phase training scheme, transitioning from parameter-efficient fine-tuning on high-confidence samples to full fine-tuning guided by collaboratively filtered pseudo-labels. Building on CoFT, CoFT+ further enhances adaptation via iterative fine-tuning, momentum contrastive learning, and LLM-generated prompts. Extensive experiments demonstrate consistent gains over existing unsupervised methods and even few-shot supervised baselines.
- Abstract(参考訳): CLIPのような大規模視覚言語モデル(VLM)は、ゼロショットの強い一般化を示すが、下流のタスクに適応するためには通常、コストのかかるラベル付きデータを必要とする。
既存の教師なしの自己学習手法は擬似ラベル化に依存しているが、信頼できない信頼度フィルタリング、確認バイアス、低信頼サンプルの未利用に悩まされることが多い。
我々は,デュアルモデル,クロスモーダル協調機構を通じてラベルのないデータを活用する,教師なし適応フレームワークであるCollaborative Fine-Tuning (CoFT)を提案する。
CoFTは、サンプル依存の方法で擬似ラベルのクリーンラインを明示的にモデル化し、手作りのしきい値やノイズの仮定を不要にする、正と負のテキストプロンプトを持つデュアルプロンプト学習戦略を導入している。
負のプロンプトは軽量な視覚適応モジュールを規則化し、ノイズの多い監視下で堅牢性を向上させる。
CoFTは2段階のトレーニングスキームを採用し、高信頼度サンプルのパラメータ効率の高い微調整から、協調フィルタリングされた擬似ラベルでガイドされた完全な微調整へと移行した。
CoFT上に構築されたCoFT+は、反復的な微調整、モーメントコントラスト学習、LLM生成プロンプトによる適応をさらに強化する。
大規模な実験では、既存の教師なしの手法や、数発の教師付きベースラインよりも一貫した利得を示す。
関連論文リスト
- Explicit Uncertainty Modeling for Active CLIP Adaptation with Dual Prompt Tuning [51.99383151474742]
デュアルプロンプトチューニングに基づくアクティブCLIP適応のためのロバストな不確実性モデリングフレームワークを提案する。
提案手法は,同一のアノテーション予算の下で,既存のアクティブラーニング手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-02-04T09:01:55Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Bi-CoG: Bi-Consistency-Guided Self-Training for Vision-Language Models [16.116493934368012]
本稿では,$underlinetextbfBi-Co$nsistency-$underlinetextbfG$uided Self-Trainingというプラグイン・アンド・プレイ手法を提案する。
Bi-CoGは、エラー認識型動的擬似ラベル割り当て戦略とともに、モデル間の一貫性とモデル内一貫性を同時に活用することにより、高品質で低バイアスな擬似ラベルを割り当てる。
論文 参考訳(メタデータ) (2025-10-23T12:16:41Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Feedback-Driven Pseudo-Label Reliability Assessment: Redefining Thresholding for Semi-Supervised Semantic Segmentation [5.7977777220041204]
擬似スーパービジョンの一般的な実践は、事前に定義された信頼しきい値やエントロピーに基づいて擬似ラベルをフィルタリングすることである。
疑似ラベル選択のための動的フィードバック駆動しきい値決定手法であるEnsemble-of-Confidence Reinforcement (ENCORE)を提案する。
提案手法は,既存の擬似スーパービジョンフレームワークにシームレスに統合され,セグメンテーション性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-05-12T15:58:08Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Training-Free Unsupervised Prompt for Vision-Language Models [27.13778811871694]
本研究では,表現能力の保持と類似性に基づく予測確率の残差による強化を図るために,TFUP(Training-Free Unsupervised Prompts)を提案する。
TFUPは、複数の分類データセットのトレーニングベースメソッドを超え、驚くべきパフォーマンスを達成する。
TFUP-Tは,複数のベンチマークにおける教師なしおよび少数ショット適応手法と比較して,最先端の分類性能が向上する。
論文 参考訳(メタデータ) (2024-04-25T05:07:50Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。