Fugu-MT 論文翻訳(概要): Semi-Supervised Few-Shot Adaptation of Vision-Language Models

論文の概要: Semi-Supervised Few-Shot Adaptation of Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.02959v1
Date: Tue, 03 Mar 2026 13:11:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.806345
Title: Semi-Supervised Few-Shot Adaptation of Vision-Language Models
Title（参考訳）: ビジョンランゲージモデルの半教師付きFew-Shot適応
Authors: Julio Silva-Rodríguez, Ender Konukoglu,
Abstract要約: 医用画像では、ゼロショットと少数ショットの画像分類において、特殊視監督モデル(VLM)が有望な性能を示した。本稿では,テキストインフォームド・擬似ラベルを数ショット適応時に伝播する,効率的な半言語解法を導入することで,ラベル付きデータを活用することを提案する。
参考スコア（独自算出の注目度）: 20.999372254003482
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) pre-trained on large, heterogeneous data sources are becoming increasingly popular, providing rich multi-modal embeddings that enable efficient transfer to new tasks. A particularly relevant application is few-shot adaptation, where only a handful of annotated examples are available to adapt the model through multi-modal linear probes. In medical imaging, specialized VLMs have shown promising performance in zero- and few-shot image classification, which is valuable for mitigating the high cost of expert annotations. However, challenges remain in extremely low-shot regimes: the inherent class imbalances in medical tasks often lead to underrepresented categories, penalizing overall model performance. To address this limitation, we propose leveraging unlabeled data by introducing an efficient semi-supervised solver that propagates text-informed pseudo-labels during few-shot adaptation. The proposed method enables lower-budget annotation pipelines for adapting VLMs, reducing labeling effort by >50% in low-shot regimes.
Abstract（参考訳）: 大規模で異種なデータソース上で事前訓練された視覚言語モデル(VLM)が人気を博し、新しいタスクへの効率的な転送を可能にするリッチなマルチモーダル埋め込みを提供している。特に関連する応用は、少数のアノテート例だけがマルチモーダル線形プローブによってモデルに適応できる、少数ショット適応である。医用画像において、専門的なVLMは、専門家アノテーションの高コスト化に有用なゼロショット画像分類と少数ショット画像分類において、有望な性能を示している。医学的タスクの固有のクラス不均衡は、しばしば、表現不足のカテゴリーにつながり、全体的なモデルパフォーマンスを罰する。この制限に対処するために,テキストインフォームド・擬似ラベルを数ショット適応時に伝播する効率的な半教師付きソルバを導入することにより,ラベルなしデータを活用することを提案する。提案手法により,VLMの適応のための低予算アノテーションパイプラインが実現され,ローショット方式ではラベル付け作業が50%削減された。

関連論文リスト

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。 FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。 FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文参考訳（メタデータ） (2026-02-28T05:41:57Z)
Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-27T13:48:50Z)
WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文参考訳（メタデータ） (2025-12-02T09:02:20Z)
Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。 CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文参考訳（メタデータ） (2025-11-25T18:57:28Z)
Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。 PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文参考訳（メタデータ） (2025-05-21T13:26:56Z)
Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning [1.3680468021400563]
ヴィジュアル言語モデル(VLM)の核となる課題は、ほとんどない PromptFuseNLは、予測的プロンプトチューニングと2分岐正負の学習を組み合わせることで、数ショットの一般化を向上する統合フレームワークである。
論文参考訳（メタデータ） (2025-05-16T23:39:34Z)
Feeding LLM Annotations to BERT Classifiers at Your Own Risk [14.533304890042361]
テキスト分類のための小さなエンコーダのみのモデルにLLM生成ラベルを使用することは、様々な設定で人気を博している。合成データに対する訓練の長年の呪いが、この特定の設定でどのように現れているかを実証する。金ラベルでトレーニングされたモデルと比較して、精度とF1スコアが期待される性能劣化だけでなく、トレーニングランと未熟なパフォーマンスプラトーの不安定性も向上する。
論文参考訳（メタデータ） (2025-04-21T20:54:55Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文参考訳（メタデータ） (2024-05-28T19:16:59Z)
Enhancing Vision-Language Few-Shot Adaptation with Negative Learning [11.545127156146368]
我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
論文参考訳（メタデータ） (2024-03-19T17:59:39Z)
Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。 VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文参考訳（メタデータ） (2022-10-09T01:49:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。