論文の概要: Generative Semi-supervised Learning with Meta-Optimized Synthetic
Samples
- arxiv url: http://arxiv.org/abs/2309.16143v1
- Date: Thu, 28 Sep 2023 03:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:08:48.251190
- Title: Generative Semi-supervised Learning with Meta-Optimized Synthetic
Samples
- Title(参考訳): メタ最適化合成サンプルを用いた半教師付き生成学習
- Authors: Shin'ya Yamaguchi
- Abstract要約: 半教師付き学習(SSL)はラベル付きデータセットとラベルなしデータセットを使用して、深い分類モデルをトレーニングするための有望なアプローチである。
本稿では,SSLモデルをラベルなしのデータセットなしでトレーニングすることは可能か,という研究課題について検討する。
多様な領域に数百万のサンプルを含むデータセットに基づいて学習した生成基盤モデルから生成された合成データセットを用いたSSL手法を提案する。
- 参考スコア(独自算出の注目度): 5.384630221560811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised learning (SSL) is a promising approach for training deep
classification models using labeled and unlabeled datasets. However, existing
SSL methods rely on a large unlabeled dataset, which may not always be
available in many real-world applications due to legal constraints (e.g.,
GDPR). In this paper, we investigate the research question: Can we train SSL
models without real unlabeled datasets? Instead of using real unlabeled
datasets, we propose an SSL method using synthetic datasets generated from
generative foundation models trained on datasets containing millions of samples
in diverse domains (e.g., ImageNet). Our main concepts are identifying
synthetic samples that emulate unlabeled samples from generative foundation
models and training classifiers using these synthetic samples. To achieve this,
our method is formulated as an alternating optimization problem: (i)
meta-learning of generative foundation models and (ii) SSL of classifiers using
real labeled and synthetic unlabeled samples. For (i), we propose a
meta-learning objective that optimizes latent variables to generate samples
that resemble real labeled samples and minimize the validation loss. For (ii),
we propose a simple unsupervised loss function that regularizes the feature
extractors of classifiers to maximize the performance improvement obtained from
synthetic samples. We confirm that our method outperforms baselines using
generative foundation models on SSL. We also demonstrate that our methods
outperform SSL using real unlabeled datasets in scenarios with extremely small
amounts of labeled datasets. This suggests that synthetic samples have the
potential to provide improvement gains more efficiently than real unlabeled
data.
- Abstract(参考訳): 半教師付き学習(semi-supervised learning, ssl)はラベル付きおよびラベル付きデータセットを用いた深層分類モデルのトレーニングに有望なアプローチである。
しかし、既存のSSLメソッドは大きなラベルのないデータセットに依存しており、法的制約(GDPRなど)のため、多くの現実世界のアプリケーションで常に利用できるとは限らない。
本稿では,SSLモデルをラベルなしのデータセットなしでトレーニングできるか,という課題について検討する。
実際のラベルなしデータセットの代わりに、多様なドメイン(イメージネットなど)に数百万のサンプルを含むデータセットに基づいてトレーニングされた生成基盤モデルから生成された合成データセットを用いたSSL方式を提案する。
私たちの主な概念は、生成基盤モデルからラベルなしのサンプルをエミュレートする合成サンプルを特定し、これらの合成サンプルを使用して分類を訓練することです。
これを実現するために,本手法は交代最適化問題として定式化されている。
(i)生成基礎モデルのメタラーニングと
(ii) 実ラベル付きおよび合成ラベルなしサンプルを用いた分類器のSSL。
のために
i) 潜在変数を最適化し, 実ラベル付きサンプルに類似したサンプルを生成し, 検証損失を最小限に抑えるメタラーニング目標を提案する。
のために
(ii) 合成試料から得られた性能改善を最大化するために分類器の特徴抽出器を定式化する単純な教師なし損失関数を提案する。
提案手法はSSL上の生成基盤モデルを用いてベースラインよりも優れていることを確認した。
また,本手法は,ラベル付きデータセットが極めて少ないシナリオにおいて,実際のラベル付きデータセットを用いてSSLより優れていることを示す。
このことから, 合成試料は, 実際の未ラベルデータよりも効率よく向上する可能性が示唆された。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Self-supervised learning of multi-omics embeddings in the low-label,
high-data regime [0.0]
対照的に、自己教師型学習(SSL)は、ユニモーダル、mRNA、RPPAの発現データからがんのタイプを予測するモデルを訓練するために用いられる。
遅延融合モデルでは、各オミクスがそれぞれのサブネットワークに渡され、その出力が平均化され、事前学習または下流の目的関数に渡される。
マルチモーダルプレトレーニングは単一オミクスからの予測を改善することが示されており、多くの非ラベル付きマルチモーダルサンプルを持つデータセットでは有用であるが、ラベル付きサンプルはほとんどない。
論文 参考訳(メタデータ) (2023-11-16T15:32:22Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning [93.63638405586354]
擬似ラベルベースメタラーニング(PLML)という,シンプルで効果的なメタトレーニングフレームワークを提案する。
まず、一般的な半教師付き学習(SSL)を用いて分類器を訓練し、ラベルなしデータの擬似ラベルを得る。
ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し、特徴の平滑化と雑音抑圧を伴う新しい微調整法を設計する。
論文 参考訳(メタデータ) (2022-07-14T10:53:53Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。