論文の概要: Data Generation in Low Sample Size Setting Using Manifold Sampling and a
Geometry-Aware VAE
- arxiv url: http://arxiv.org/abs/2103.13751v1
- Date: Thu, 25 Mar 2021 11:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:52:07.386461
- Title: Data Generation in Low Sample Size Setting Using Manifold Sampling and a
Geometry-Aware VAE
- Title(参考訳): マニフォールドサンプリングと幾何学的VAEを用いた低サンプルサイズデータ生成
- Authors: Cl\'ement Chadebec and St\'ephanie Allassonni\`ere
- Abstract要約: 我々は,潜在空間の幾何構造に基づく2つの非アンフリープリオリ依存生成手順を考案する。
後者の手法は、サンプルサイズの小さな設定でデータ拡張を行うために使用され、様々な標準および実生活データセットで検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While much efforts have been focused on improving Variational Autoencoders
through richer posterior and prior distributions, little interest was shown in
amending the way we generate the data. In this paper, we develop two non
\emph{prior-dependent} generation procedures based on the geometry of the
latent space seen as a Riemannian manifold. The first one consists in sampling
along geodesic paths which is a natural way to explore the latent space while
the second one consists in sampling from the inverse of the metric volume
element which is easier to use in practice. Both methods are then compared to
\emph{prior-based} methods on various data sets and appear well suited for a
limited data regime. Finally, the latter method is used to perform data
augmentation in a small sample size setting and is validated across various
standard and \emph{real-life} data sets. In particular, this scheme allows to
greatly improve classification results on the OASIS database where balanced
accuracy jumps from 80.7% for a classifier trained with the raw data to 89.1%
when trained only with the synthetic data generated by our method. Such results
were also observed on 4 standard data sets.
- Abstract(参考訳): よりリッチな後方分布と事前分布による変分オートコーダの改善に多くの努力が注がれているが、データ生成の仕方を改善することにはほとんど関心が示されていない。
本稿では、リーマン多様体として見なされる潜在空間の幾何に基づく2つの非非emph{prior-dependent}生成手順を考案する。
1つ目は潜在空間を探索する自然な方法である測地路に沿ってサンプリングすること、もう1つは実際の使用が容易な計量体積要素の逆からサンプリングすることである。
どちらの手法も様々なデータセット上の \emph{prior-based} メソッドと比較され、限られたデータレジームに適しているように見える。
最後に、後者の方法は、小さなサンプルサイズ設定でデータ拡張を実行するために使われ、様々な標準および \emph{real-life}データセットで検証される。
特に,本手法では,本手法で生成した合成データのみを用いて学習した場合,平均精度が80.7%から89.1%に向上したoasisデータベースの分類結果を大幅に改善することができる。
この結果は4つの標準データセットでも観測された。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Distance in Latent Space as Novelty Measure [0.0]
本稿では,データセット構築時のサンプルをインテリジェントに選択することを提案する。
この選択手法は、2つの異なるサンプルがデータセット内の2つの類似したサンプル以上の価値があるという推定に基づいている。
自己教師付き手法を用いて潜在空間を構築することにより、空間がデータによく適合し、事前ラベリングの労力を回避できることが保証される。
論文 参考訳(メタデータ) (2020-03-31T09:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。