論文の概要: Data Generation in Low Sample Size Setting Using Manifold Sampling and a
Geometry-Aware VAE
- arxiv url: http://arxiv.org/abs/2103.13751v1
- Date: Thu, 25 Mar 2021 11:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:52:07.386461
- Title: Data Generation in Low Sample Size Setting Using Manifold Sampling and a
Geometry-Aware VAE
- Title(参考訳): マニフォールドサンプリングと幾何学的VAEを用いた低サンプルサイズデータ生成
- Authors: Cl\'ement Chadebec and St\'ephanie Allassonni\`ere
- Abstract要約: 我々は,潜在空間の幾何構造に基づく2つの非アンフリープリオリ依存生成手順を考案する。
後者の手法は、サンプルサイズの小さな設定でデータ拡張を行うために使用され、様々な標準および実生活データセットで検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While much efforts have been focused on improving Variational Autoencoders
through richer posterior and prior distributions, little interest was shown in
amending the way we generate the data. In this paper, we develop two non
\emph{prior-dependent} generation procedures based on the geometry of the
latent space seen as a Riemannian manifold. The first one consists in sampling
along geodesic paths which is a natural way to explore the latent space while
the second one consists in sampling from the inverse of the metric volume
element which is easier to use in practice. Both methods are then compared to
\emph{prior-based} methods on various data sets and appear well suited for a
limited data regime. Finally, the latter method is used to perform data
augmentation in a small sample size setting and is validated across various
standard and \emph{real-life} data sets. In particular, this scheme allows to
greatly improve classification results on the OASIS database where balanced
accuracy jumps from 80.7% for a classifier trained with the raw data to 89.1%
when trained only with the synthetic data generated by our method. Such results
were also observed on 4 standard data sets.
- Abstract(参考訳): よりリッチな後方分布と事前分布による変分オートコーダの改善に多くの努力が注がれているが、データ生成の仕方を改善することにはほとんど関心が示されていない。
本稿では、リーマン多様体として見なされる潜在空間の幾何に基づく2つの非非emph{prior-dependent}生成手順を考案する。
1つ目は潜在空間を探索する自然な方法である測地路に沿ってサンプリングすること、もう1つは実際の使用が容易な計量体積要素の逆からサンプリングすることである。
どちらの手法も様々なデータセット上の \emph{prior-based} メソッドと比較され、限られたデータレジームに適しているように見える。
最後に、後者の方法は、小さなサンプルサイズ設定でデータ拡張を実行するために使われ、様々な標準および \emph{real-life}データセットで検証される。
特に,本手法では,本手法で生成した合成データのみを用いて学習した場合,平均精度が80.7%から89.1%に向上したoasisデータベースの分類結果を大幅に改善することができる。
この結果は4つの標準データセットでも観測された。
関連論文リスト
- RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for
Enhanced Dataset Pruning [54.511055635704764]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Implicit Data Augmentation Using Feature Interpolation for Diversified
Low-Shot Image Generation [11.4559888429977]
生成モデルのトレーニングは、低データ設定で容易に発散することができる。
そこで本研究では,安定したトレーニングと多様なサンプルの合成を容易にする,新しい暗黙的データ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-12-04T23:55:46Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Improving Generative Adversarial Networks with Local Coordinate Coding [150.24880482480455]
GAN(Generative Adversarial Network)は、事前定義された事前分布から現実的なデータを生成することに成功している。
実際には、意味情報はデータから学んだ潜在的な分布によって表現される。
ローカル座標符号化(LCC)を用いたLCCGANモデルを提案する。
論文 参考訳(メタデータ) (2020-07-28T09:17:50Z) - Distance in Latent Space as Novelty Measure [0.0]
本稿では,データセット構築時のサンプルをインテリジェントに選択することを提案する。
この選択手法は、2つの異なるサンプルがデータセット内の2つの類似したサンプル以上の価値があるという推定に基づいている。
自己教師付き手法を用いて潜在空間を構築することにより、空間がデータによく適合し、事前ラベリングの労力を回避できることが保証される。
論文 参考訳(メタデータ) (2020-03-31T09:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。