論文の概要: Adapting Multimodal Foundation Models for Few-Shot Learning: A Comprehensive Study on Contrastive Captioners
- arxiv url: http://arxiv.org/abs/2512.12824v1
- Date: Sun, 14 Dec 2025 20:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.460039
- Title: Adapting Multimodal Foundation Models for Few-Shot Learning: A Comprehensive Study on Contrastive Captioners
- Title(参考訳): ファウショット学習のためのマルチモーダル・ファンデーション・モデルの適用:コントラスト・キャピタに関する総合的研究
- Authors: N. K. B. M. P. K. B. Narasinghe, Uthayasanker Thayasivam,
- Abstract要約: 本稿では,コントラシティブ・キャピタ(CoCa)視覚バックボーンを用いた画像分類手法を提案する。
強いデータ拡張は、低ショット環境での線形探索の性能を低下させるが、LoRA微調整の安定化には不可欠である。
また,Supervised Contrastive (SupCon) の損失を組み込んだハイブリッド目的が,標準的なクロスエントロピーよりも一貫した性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 1.2461503242570642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale multimodal foundation models, particularly Contrastive Captioners (CoCa), have achieved state-of-the-art results by unifying contrastive alignment with generative captioning. While zero-shot transfer capabilities are well-documented, the adaptation of these generative-contrastive hybrids to downstream tasks with extreme data scarcity (few-shot learning) remains under-explored. Existing literature predominantly focuses on dual-encoder architectures like CLIP, leaving a gap in understanding how CoCa's distinct latent space responds to parameter-efficient fine-tuning (PEFT). This paper presents a comprehensive empirical study on adapting the CoCa visual backbone for few-shot image classification. We systematically evaluate a hierarchy of strategies, ranging from training-free hybrid prototyping to deep parameter adaptation via Low-Rank Adaptation (LoRA). First, we identify an "augmentation divergence": while strong data augmentation degrades the performance of linear probing in low-shot settings, it is essential for stabilizing LoRA fine-tuning. We also demonstrate that hybrid objectives incorporating Supervised Contrastive (SupCon) loss yield consistent performance improvements over standard Cross-Entropy across varying shot counts. Crucially, we characterize the sensitivity of training configurations to data scarcity, providing empirical reference settings for scaling regularization, rank, and sampling strategies to facilitate the efficient adaptation of generative-contrastive foundation models.
- Abstract(参考訳): 大規模マルチモーダル基礎モデル、特にコントラストキャプタ(Contrastive Captioners, CoCa)は、生成キャプションとコントラストアライメントを統一することにより、最先端の結果を得た。
ゼロショット転送能力は十分に文書化されているが、これらの生成的コントラストハイブリッドは、極端なデータ不足(フェーショット学習)を伴う下流タスクに適応している。
既存の文献は主にCLIPのようなデュアルエンコーダアーキテクチャに重点を置いており、CoCaの異なる潜在空間がパラメータ効率の良い微調整(PEFT)にどのように反応するかを理解するためのギャップを残している。
本稿では,CoCa視覚バックボーンを用いた画像分類のための総合的研究について述べる。
学習不要なハイブリッドプロトタイピングからLo-Rank Adaptation (LoRA) による深層パラメータ適応まで,戦略階層を体系的に評価する。
まず,低ショット環境での線形探索の性能が向上する一方で,LoRA微調整の安定化に不可欠であることを示す。
また,Supervised Contrastive (SupCon) の損失を組み込んだハイブリッド目的が,様々なショット数にまたがる標準的なクロスエントロピーよりも一貫した性能向上をもたらすことを示した。
本研究は,データ不足に対するトレーニング構成の感度を特徴付け,正規化,ランク,サンプリング戦略をスケールするための経験的基準設定を提供することにより,生成コントラスト基礎モデルの効率的な適応を容易にする。
関連論文リスト
- Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Improving $(α, f)$-Byzantine Resilience in Federated Learning via layerwise aggregation and cosine distance [7.8973037023478785]
フェデレートラーニング(FL)は、分散機械学習におけるデータプライバシの課題に対する潜在的な解決策である。
FLシステムは、悪意のあるノードが破損したモデル更新に寄与するビザンティン攻撃に弱いままである。
本稿では,高次元設定における規則の堅牢性向上を目的とした新しいアグリゲーション手法であるLayerwise Cosine Aggregationを紹介する。
論文 参考訳(メタデータ) (2025-03-27T08:07:39Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Ortho-Shot: Low Displacement Rank Regularization with Data Augmentation
for Few-Shot Learning [23.465747123791772]
少数の分類において、第一の目的は、新しいクラスをうまく一般化する表現を学ぶことである。
オルソショット(Ortho-Shot)と呼ばれる効率的な低変位ランク(LDR)正規化戦略を提案する。
論文 参考訳(メタデータ) (2021-10-18T14:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。