論文の概要: Reprint: a randomized extrapolation based on principal components for
data augmentation
- arxiv url: http://arxiv.org/abs/2204.12024v1
- Date: Tue, 26 Apr 2022 01:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:02:31.967221
- Title: Reprint: a randomized extrapolation based on principal components for
data augmentation
- Title(参考訳): リプリント:データ拡張のための主成分に基づくランダム化外挿
- Authors: Jiale Wei, Qiyuan Chen, Pai Peng, Benjamin Guedj, Le Li
- Abstract要約: 本稿では,不均衡なデータ分類のための,シンプルで効果的な隠れ空間データ拡張手法を提案する。
各クラス内のサンプルの隠れスペース表現を与えられたREPRINTは、ランダムな方法で、ターゲットクラスの拡張例を外挿する。
この方法は、拡張例のために新しい軟質ラベルを合成できるラベル改質成分を含む。
- 参考スコア(独自算出の注目度): 11.449992652644577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scarcity and data imbalance have attracted a lot of attention in many
fields. Data augmentation, explored as an effective approach to tackle them,
can improve the robustness and efficiency of classification models by
generating new samples. This paper presents REPRINT, a simple and effective
hidden-space data augmentation method for imbalanced data classification. Given
hidden-space representations of samples in each class, REPRINT extrapolates, in
a randomized fashion, augmented examples for target class by using subspaces
spanned by principal components to summarize distribution structure of both
source and target class. Consequently, the examples generated would diversify
the target while maintaining the original geometry of target distribution.
Besides, this method involves a label refinement component which allows to
synthesize new soft labels for augmented examples. Compared with different NLP
data augmentation approaches under a range of data imbalanced scenarios on four
text classification benchmark, REPRINT shows prominent improvements. Moreover,
through comprehensive ablation studies, we show that label refinement is better
than label-preserving for augmented examples, and that our method suggests
stable and consistent improvements in terms of suitable choices of principal
components. Moreover, REPRINT is appealing for its easy-to-use since it
contains only one hyperparameter determining the dimension of subspace and
requires low computational resource.
- Abstract(参考訳): データ不足とデータの不均衡は多くの分野で注目を集めている。
データ拡張は、それらに取り組む効果的なアプローチとして検討され、新しいサンプルを生成して分類モデルのロバスト性と効率を向上させることができる。
本稿では,不均衡なデータ分類のためのシンプルで効果的な隠れ空間データ拡張手法であるREPRINTを提案する。
各クラスのサンプルの隠された空間表現が与えられた場合、REPRINTはランダムな方法でターゲットクラスの例を例示し、主成分が分散した部分空間を使用してソースクラスとターゲットクラスの分布構造を要約する。
その結果、生成された例は、ターゲット分布の本来の幾何学を維持しながら、ターゲットを多様化する。
さらに、この方法は、新しいソフトラベルを拡張例用に合成できるラベルリファインメントコンポーネントを含んでいる。
4つのテキスト分類ベンチマークにおいて、さまざまなデータ不均衡シナリオの下で異なるNLPデータ拡張アプローチと比較して、REPRINTは顕著な改善を示している。
さらに,包括的アブレーション研究を通じて,拡張例のラベル保存よりもラベルリファインメントが優れていることを示し,本手法は主成分の適切な選択に関して安定かつ一貫した改善を示唆する。
さらに、RePRINTは、サブスペースの次元を決定する1つのハイパーパラメータしか含んでおらず、計算資源の少ないため、使いやすさを訴えている。
関連論文リスト
- AEMLO: AutoEncoder-Guided Multi-Label Oversampling [6.255095509216069]
AEMLOは、不均衡なマルチラベルデータに対するAutoEncoder-guided Oversampling技術である。
AEMLOは、既存の最先端手法よりも優れた性能を示し、広範な実証研究を行った。
論文 参考訳(メタデータ) (2024-08-23T14:01:33Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Evolving Multi-Label Fuzzy Classifier [5.53329677986653]
マルチラベル分類は、同時に複数のクラスに1つのサンプルを割り当てるという問題に対処するために、機械学習コミュニティで多くの注目を集めている。
本稿では,新たなマルチラベルサンプルをインクリメンタルかつシングルパスで自己適応・自己展開可能な多ラベルファジィ分類器(EFC-ML)を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:01:03Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z) - Heavy-tailed Representations, Text Polarity Classification & Data
Augmentation [11.624944730002298]
所望の正則性を持つ重み付き埋め込みを学習するための新しい手法を開発した。
提案した埋め込みの尾部専用の分類器が得られ、性能がベースラインを上回っている。
合成および実テキストデータに関する数値実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2020-03-25T19:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。