論文の概要: Not Far Away, Not So Close: Sample Efficient Nearest Neighbour Data
Augmentation via MiniMax
- arxiv url: http://arxiv.org/abs/2105.13608v1
- Date: Fri, 28 May 2021 06:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:51:34.896273
- Title: Not Far Away, Not So Close: Sample Efficient Nearest Neighbour Data
Augmentation via MiniMax
- Title(参考訳): 遠くない、そう遠くない:minimaxによる効率の良い近距離データ拡張サンプル
- Authors: Ehsan Kamalloo, Mehdi Rezagholizadeh, Peyman Passban, Ali Ghodsi
- Abstract要約: MiniMax-kNNは、効率的なデータ拡張戦略のサンプルである。
我々は、知識蒸留に基づく半教師付きアプローチを利用して、拡張データに基づいてモデルを訓練する。
- 参考スコア(独自算出の注目度): 7.680863481076596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation in Natural Language Processing (NLP) often yields examples
that are less human-interpretable. Recently, leveraging kNN such that augmented
examples are retrieved from large repositories of unlabelled sentences has made
a step toward interpretable augmentation. Inspired by this paradigm, we
introduce MiniMax-kNN, a sample efficient data augmentation strategy. We
exploit a semi-supervised approach based on knowledge distillation to train a
model on augmented data. In contrast to existing kNN augmentation techniques
that blindly incorporate all samples, our method dynamically selects a subset
of augmented samples with respect to the maximum KL-divergence of the training
loss. This step aims to extract the most efficient samples to ensure our
augmented data covers regions in the input space with maximum loss value. These
maximum loss regions are shrunk in our minimization step using augmented
samples. We evaluated our technique on several text classification tasks and
demonstrated that MiniMax-kNN consistently outperforms strong baselines. Our
results show that MiniMax-kNN requires fewer augmented examples and less
computation to achieve superior performance over the state-of-the-art kNN-based
augmentation techniques.
- Abstract(参考訳): 自然言語処理(NLP)におけるデータ拡張は、人間が解釈できない例を生み出すことが多い。
近年,非ラベル文の大きなレポジトリから拡張例を検索するkNNを活用して,解釈可能な拡張に向けた一歩を踏み出した。
このパラダイムに触発されて、サンプル効率のよいデータ拡張戦略であるMiniMax-kNNを導入する。
我々は,知識蒸留に基づく半教師付きアプローチを活用し,拡張データに基づくモデルを訓練する。
すべてのサンプルを盲目的に組み込む既存のkNN拡張手法とは対照的に,本手法では,トレーニング損失の最大KL偏差に対して,拡張サンプルのサブセットを動的に選択する。
このステップは、最も効率的なサンプルを抽出し、最大損失値の入力空間内の領域をカバーすることを目的としている。
これらの最大損失領域は、拡張サンプルを用いて最小化ステップで縮小される。
本手法をテキスト分類タスクで評価し,MiniMax-kNNが強いベースラインを一貫して上回ることを示した。
以上の結果から,最新のkNNベースの拡張技術よりも優れた性能を実現するために,MiniMax-kNNはより少ない拡張例と少ない計算を必要とすることがわかった。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Abstractive Summarization as Augmentation for Document-Level Event
Detection [0.0]
文書レベルのイベント検出における浅層モデルと深層モデルのパフォーマンスギャップを,抽象的なテキスト要約を拡張手法として用いて橋渡しする。
テキスト生成には、ビームサーチ、トップkサンプリング、トップpサンプリング、コントラスト検索の4つの復号法を用いる。
以上の結果から,文書タイトルを使用すると,線形SVMとRoBERTaのマクロF1スコアが2.04%,3.19%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-29T11:28:26Z) - Practical Knowledge Distillation: Using DNNs to Beat DNNs [8.121769391666547]
データとモデルの蒸留、およびデータのデノイングについて検討する。
これらの技術は、勾配ブースティングモデルと特殊なDNNアーキテクチャの両方を改善する。
産業用エンドツーエンドのMLプラットフォームで毎秒4Mのプロダクション推論を行う場合,データサンプリングに基づくモデルトレーニングワークフローを開発する。
経験的評価により,提案手法の組み合わせは,世界規模で展開されている複数のプロダクションアプリケーションにおいて,先行最良モデルよりもモデル精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-02-23T22:53:02Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Reweighting Augmented Samples by Minimizing the Maximal Expected Loss [51.2791895511333]
我々は,拡張標本の任意の重み付け損失に対する上限となる最大期待損失を構成する。
敵の訓練に触発されて、この最大期待損失を最小化し、単純で解釈可能なクローズドフォームソリューションを得る。
提案手法は, 一般に任意のデータ拡張法上に適用可能である。
論文 参考訳(メタデータ) (2021-03-16T09:31:04Z) - Entropy Maximization and Meta Classification for Out-Of-Distribution
Detection in Semantic Segmentation [7.305019142196585]
自動運転など多くのアプリケーションにおいて,OoD(Out-of-Distribution)サンプルが不可欠である。
OoD検出の自然なベースラインアプローチは、ピクセル回りのソフトマックスエントロピーのしきい値です。
そのアプローチを大幅に改善する2段階の手順を提案する。
論文 参考訳(メタデータ) (2020-12-09T11:01:06Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。