論文の概要: Provably Improving Generalization of Few-Shot Models with Synthetic Data
- arxiv url: http://arxiv.org/abs/2505.24190v1
- Date: Fri, 30 May 2025 03:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.760571
- Title: Provably Improving Generalization of Few-Shot Models with Synthetic Data
- Title(参考訳): 合成データを用いたFew-Shotモデルの一般化の確率的改善
- Authors: Lan-Cuong Nguyen, Quan Nguyen-Tri, Bang Tran Khanh, Dung D. Le, Long Tran-Thanh, Khoat Than,
- Abstract要約: 本研究では,分散の相違が教師あり学習に与える影響を定量化する理論的枠組みを開発する。
本稿では,データ分割とモデルトレーニングの両方を最適化するために,プロトタイプ学習を統合した理論に基づく新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.33628135372502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot image classification remains challenging due to the scarcity of labeled training examples. Augmenting them with synthetic data has emerged as a promising way to alleviate this issue, but models trained on synthetic samples often face performance degradation due to the inherent gap between real and synthetic distributions. To address this limitation, we develop a theoretical framework that quantifies the impact of such distribution discrepancies on supervised learning, specifically in the context of image classification. More importantly, our framework suggests practical ways to generate good synthetic samples and to train a predictor with high generalization ability. Building upon this framework, we propose a novel theoretical-based algorithm that integrates prototype learning to optimize both data partitioning and model training, effectively bridging the gap between real few-shot data and synthetic data. Extensive experiments results show that our approach demonstrates superior performance compared to state-of-the-art methods, outperforming them across multiple datasets.
- Abstract(参考訳): ラベル付きトレーニング例が不足しているため、画像の分類は依然として困難である。
合成データでそれらを増強することはこの問題を軽減するための有望な方法として現れてきたが、合成サンプルで訓練されたモデルは、実際の分布と合成分布の間に固有のギャップがあるため、しばしば性能劣化に直面している。
この制限に対処するために,このような分布不一致が教師付き学習,特に画像分類の文脈において与える影響を定量化する理論的枠組みを開発する。
さらに,本フレームワークは,優れた合成サンプルを生成し,高い一般化能力を持つ予測器を訓練する実践的な方法を提案する。
この枠組みを基盤として,データ分割とモデルトレーニングの両方を最適化するためのプロトタイプ学習を統合した理論に基づく新しいアルゴリズムを提案し,実際の数ショットデータと合成データのギャップを効果的に埋める。
大規模な実験結果から,本手法は最先端手法よりも優れた性能を示し,複数のデータセットにまたがって性能を向上することが示された。
関連論文リスト
- Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation [0.7560883489000576]
画像合成におけるコントラスト学習を統合した新しいデータセット蒸留法を提案する。
提案手法は,データセットのサイズが著しく制約された場合でも,より情報的かつ多様な合成サンプルを生成する。
論文 参考訳(メタデータ) (2025-05-21T08:46:29Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Golden Ratio Weighting Prevents Model Collapse [9.087950471621653]
近年の研究では、モデル崩壊として知られる生成モデルトレーニングにおける現象が特定されている。
本稿では,新たに収集した実データと合成データを組み合わせて生成モデルを反復的に訓練する新しい枠組みの中で,この現象を理論的に検討する。
論文 参考訳(メタデータ) (2025-02-25T10:15:16Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Improving Adversarial Robustness by Contrastive Guided Diffusion Process [19.972628281993487]
データ生成における拡散モデルを導くために,コントラスト誘導拡散プロセス(Contrastive-Guided Diffusion Process, DP)を提案する。
生成データ間の識別性の向上は, 対向的ロバスト性の向上に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-10-18T07:20:53Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。