Fugu-MT 論文翻訳(概要): Neural Data Augmentation via Example Extrapolation

論文の概要: Neural Data Augmentation via Example Extrapolation

arxiv url: http://arxiv.org/abs/2102.01335v1
Date: Tue, 2 Feb 2021 06:20:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-03 17:00:11.205538
Title: Neural Data Augmentation via Example Extrapolation
Title（参考訳）: 例外挿による神経データ拡張
Authors: Kenton Lee, Kelvin Guu, Luheng He, Tim Dozat, Hyung Won Chung
Abstract要約: ニューラルサンプル補間(Ex2)を行うデータ拡張手法を提案する。ある分布からサンプリングされたいくつかの例が与えられたとき、Ex2は同じ分布に属する新しい例を合成する。言語理解タスクにEx2を適用し、複数の数ショット学習ベンチマークで最先端の手法を大幅に改善する。
参考スコア（独自算出の注目度）: 21.164966222863384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In many applications of machine learning, certain categories of examples may be underrepresented in the training data, causing systems to underperform on such "few-shot" cases at test time. A common remedy is to perform data augmentation, such as by duplicating underrepresented examples, or heuristically synthesizing new examples. But these remedies often fail to cover the full diversity and complexity of real examples. We propose a data augmentation approach that performs neural Example Extrapolation (Ex2). Given a handful of exemplars sampled from some distribution, Ex2 synthesizes new examples that also belong to the same distribution. The Ex2 model is learned by simulating the example generation procedure on data-rich slices of the data, and it is applied to underrepresented, few-shot slices. We apply Ex2 to a range of language understanding tasks and significantly improve over state-of-the-art methods on multiple few-shot learning benchmarks, including for relation extraction (FewRel) and intent classification + slot filling (SNIPS).
Abstract（参考訳）: 機械学習の多くの応用では、トレーニングデータで特定の例のカテゴリが過小評価され、テスト時にこのような"フェーショット"ケースでシステムが過小評価される可能性がある。一般的な治療は、表現不足の例を複製したり、新しい例をヒューリスティックに合成したりしてデータ拡張を行うことである。しかし、これらの治療法は実例の完全な多様性と複雑さをカバーできないことが多い。本稿では,ニューラルサンプル補間(Ex2)を行うデータ拡張手法を提案する。ある分布からサンプリングされた少数の例を考えると、Ex2は同じ分布に属する新しい例を合成する。 Ex2モデルは、データ豊富なスライスの例生成手順をシミュレートして学習され、表現不足の少数のスライスに適用されます。 Ex2をさまざまな言語理解タスクに適用し、リレーション抽出(FewRel)やインテント分類+スロットフィリング(SNIPS)など、複数のマルチショット学習ベンチマークにおける最先端の手法を大幅に改善します。

関連論文リスト

Curvature Enhanced Data Augmentation for Regression [4.910937238451485]
回帰タスクに対する曲率強化マニフォールドサンプリング(CEMS)手法を提案する。 CEMSは、ディストリビューションとアウト・オブ・ディストリビューションの両方のシナリオで優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-06-07T16:18:37Z)
Tackling Few-Shot Segmentation in Remote Sensing via Inpainting Diffusion Model [0.3749861135832073]
数ショットのセグメンテーションタスクでは、モデルは通常、豊富なアノテーションを持つベースクラスで訓練され、後に限られた例を持つ新しいクラスに適応する。本稿では,拡散モデルを利用して新しいクラスオブジェクトを多種多様に生成する簡単な手法を提案する。イメージインペイントタスクとして問題をフレーミングすることにより,様々な環境下での新規クラスの可視例を合成する。
論文参考訳（メタデータ） (2025-03-05T02:08:51Z)
Demystifying Language Model Forgetting with Low-rank Example Associations [38.93348195407474]
大規模言語モデル(LLM)は、微調整時に上流データを忘れることに悩まされる。我々は、言語モデリングや微調整後の命令チューニングの上流の例で発生する忘れを実証的に分析する。
論文参考訳（メタデータ） (2024-06-20T06:46:23Z)
Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文参考訳（メタデータ） (2023-11-08T01:27:34Z)
SCENE: Self-Labeled Counterfactuals for Extrapolating to Negative Examples [23.77077091225583]
SCENE(Self-labeled Counterfactuals for Extrapolating to Negative Examples)は、学習データを自動合成する手法である。 SCENEは、答え可能なトレーニング例のみにアクセスすることで、SQuAD 2.0のパフォーマンスギャップの69.6%を埋めることができる。
論文参考訳（メタデータ） (2023-05-13T19:30:58Z)
ScatterShot: Interactive In-context Example Curation for Text Transformation [44.9405895390925]
In-context Learning のための高品質な実演セットを構築するための対話型システム ScatterShot を提案する。 ScatterShotは、未ラベルデータをタスク固有のパターンに反復的にスライスし、未探索または未飽和スライスからの情報入力をアクティブに学習する。ユーザスタディでは、ScatterShotは入力空間の異なるパターンをカバーし、テキスト内のサンプルをより効率的にラベル付けするのに役立つ。
論文参考訳（メタデータ） (2023-02-14T21:13:31Z)
Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。 SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文参考訳（メタデータ） (2022-10-26T21:03:46Z)
Learning to Imagine: Diversify Memory for Incremental Learning using Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2022-04-19T15:15:18Z)
Adversarial Examples for Unsupervised Machine Learning Models [71.81480647638529]
回避予測を引き起こすアドリラルな例は、機械学習モデルの堅牢性を評価し改善するために広く利用されている。教師なしモデルに対する逆例生成の枠組みを提案し,データ拡張への新たな応用を実証する。
論文参考訳（メタデータ） (2021-03-02T17:47:58Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)
A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文参考訳（メタデータ） (2020-03-28T17:11:29Z)
Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。 ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文参考訳（メタデータ） (2020-03-24T03:59:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。