論文の概要: Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition
- arxiv url: http://arxiv.org/abs/2410.02069v1
- Date: Wed, 02 Oct 2024 22:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:54:43.756322
- Title: Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition
- Title(参考訳): コンテンツ型分解による視覚基礎モデルの半監督的微調整
- Authors: Mariia Drozdova, Vitaliy Kinakh, Yury Belousov, Erica Lastufka, Slava Voloshynovskiy,
- Abstract要約: 本稿では,限定ラベル付きデータを用いた下流タスクにおける基礎モデルの性能向上を目的とした,半教師付き微調整手法を提案する。
我々は、MNIST、その拡張されたバリエーション、CIFAR-10、SVHN、GalaxyMNISTを含む複数のデータセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 4.192370959537781
- License:
- Abstract: In this paper, we present a semi-supervised fine-tuning approach designed to improve the performance of foundation models on downstream tasks with limited labeled data. By leveraging content-style decomposition within an information-theoretic framework, our method enhances the latent representations of pre-trained vision foundation models, aligning them more effectively with specific task objectives and addressing the problem of distribution shift. We evaluate our approach on multiple datasets, including MNIST, its augmented variations (with yellow and white stripes), CIFAR-10, SVHN, and GalaxyMNIST. The experiments show improvements over purely supervised baselines, particularly in low-labeled data regimes, across both frozen and trainable backbones for the majority of the tested datasets.
- Abstract(参考訳): 本稿では,限定ラベル付きデータを用いた下流タスクにおける基礎モデルの性能向上を目的とした,半教師付き微調整手法を提案する。
情報理論フレームワーク内でのコンテンツスタイルの分解を利用して、事前学習された視覚基盤モデルの潜在表現を強化し、特定のタスク目標とより効果的に整合させ、分散シフトの問題に対処する。
我々は、MNIST、その拡張されたバリエーション(黄色と白のストライプ)、CIFAR-10、SVHN、GalaxyMNISTを含む複数のデータセットに対するアプローチを評価した。
実験は、純粋な教師付きベースライン、特に低ラベルのデータレギュレーションにおいて、テストされたデータセットの大部分に対して、凍結されたバックボーンとトレーニング可能なバックボーンの両方で改善されていることを示す。
関連論文リスト
- Semi-supervised Medical Image Segmentation Method Based on Cross-pseudo
Labeling Leveraging Strong and Weak Data Augmentation Strategies [2.8246591681333024]
本稿では,Fixmatch の概念を革新的に取り入れた半教師付きモデル DFCPS を提案する。
整合性学習と自己学習を統合したクロス擬似スーパービジョンが導入された。
我々のモデルは、ラベルなしデータの比率が異なる4つの区分全てにおいて、常に優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-17T13:07:44Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - GAN-Supervised Dense Visual Alignment [95.37027391102684]
本稿では,識別モデル学習のためのフレームワークであるGAN-Supervised Learningと,GAN生成した学習データをエンドツーエンドで共同で学習する手法を提案する。
従来のCongealing法にインスパイアされた我々のGANgealingアルゴリズムは、Spatial Transformerを訓練し、不整合データに基づいて訓練されたGANのランダムなサンプルを共通の目標モードにマッピングする。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - A self-training framework for glaucoma grading in OCT B-scans [6.382852973055393]
そこで本研究では,OCT B-Scansを用いた緑内障検診のための自己学習型フレームワークを提案する。
2段階の学習手法は、最初のステップで生成された擬似ラベルを利用して、ターゲットドメイン上のトレーニングデータセットを拡大する。
提案する新しい緑内障特異的バックボーンは,遅延空間の埋め込み特性を改良するために,スキップ接続による残像と注意点のモジュールを導入している。
論文 参考訳(メタデータ) (2021-11-23T10:33:55Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。