論文の概要: A Diversity-Enhanced and Constraints-Relaxed Augmentation for
Low-Resource Classification
- arxiv url: http://arxiv.org/abs/2109.11834v1
- Date: Fri, 24 Sep 2021 09:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:16:11.230829
- Title: A Diversity-Enhanced and Constraints-Relaxed Augmentation for
Low-Resource Classification
- Title(参考訳): 低リソース分類のための多様性強化と制約緩和
- Authors: Guang Liu, Hailong Huang, Yuzhao Mao, Weiguo Gao, Xuan Li, Jianping
Shen
- Abstract要約: LRCでは、強い制約があるがDAの弱い多様性は、分類器の能力の一般化を損なう。
DECRA(Diversity-Enhanced and Constraints-Relaxed Augmentation)を提案する。
私たちのDECRAには、トランスベースのバックボーンモデルの上に2つの重要なコンポーネントがあります。
- 参考スコア(独自算出の注目度): 8.05097035573437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation (DA) aims to generate constrained and diversified data to
improve classifiers in Low-Resource Classification (LRC). Previous studies
mostly use a fine-tuned Language Model (LM) to strengthen the constraints but
ignore the fact that the potential of diversity could improve the effectiveness
of generated data. In LRC, strong constraints but weak diversity in DA result
in the poor generalization ability of classifiers. To address this dilemma, we
propose a {D}iversity-{E}nhanced and {C}onstraints-\{R}elaxed {A}ugmentation
(DECRA). Our DECRA has two essential components on top of a transformer-based
backbone model. 1) A k-beta augmentation, an essential component of DECRA, is
proposed to enhance the diversity in generating constrained data. It expands
the changing scope and improves the degree of complexity of the generated data.
2) A masked language model loss, instead of fine-tuning, is used as a
regularization. It relaxes constraints so that the classifier can be trained
with more scattered generated data. The combination of these two components
generates data that can reach or approach category boundaries and hence help
the classifier generalize better. We evaluate our DECRA on three public
benchmark datasets under low-resource settings. Extensive experiments
demonstrate that our DECRA outperforms state-of-the-art approaches by 3.8% in
the overall score.
- Abstract(参考訳): データ拡張(DA)は、制約付きおよび多様化されたデータを生成し、低リソース分類(LRC)における分類器を改善することを目的としている。
従来の研究では、制約を強化するために微調整言語モデル(LM)がほとんどであったが、多様性の可能性によって生成されたデータの有効性が向上するという事実は無視されていた。
LRCでは、強い制約があるがDAの弱い多様性は、分類器の一般化能力の低下をもたらす。
このジレンマに対処するために、D}iversity-{E}nhanced と {C}onstraints-\{R}elaxed {A}ugmentation (DECRA) を提案する。
私たちのdecraには、トランスフォーマーベースのバックボーンモデル上に2つの重要なコンポーネントがあります。
1) 制約データの生成における多様性を高めるため,DECRAの必須成分であるkベータ拡張を提案する。
変更範囲を拡大し、生成されたデータの複雑さの度合いを向上する。
2)微調整の代わりにマスク付き言語モデル損失が正規化として使用される。
制約を緩和することで、より分散した生成されたデータで分類器をトレーニングすることが可能になる。
これら2つのコンポーネントの組み合わせは、カテゴリ境界に到達または接近可能なデータを生成し、分類器の一般化に役立つ。
低リソース環境下での3つの公開ベンチマークデータセットに対するDECRAの評価を行った。
大規模な実験により、我々のDECRAは最先端のアプローチを3.8%上回る結果となった。
関連論文リスト
- ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual
Categorization in Few-Shot Conditions [11.931820047796332]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - FakeCLR: Exploring Contrastive Learning for Solving Latent Discontinuity
in Data-Efficient GANs [24.18718734850797]
Data-Efficient GAN(DE-GAN)は、限られたトレーニングデータで生成モデルを学習することを目的としている。
対照的な学習は、DE-GANの合成品質を高める大きな可能性を示している。
偽のサンプルに対してのみ対照的な学習を行うFakeCLRを提案する。
論文 参考訳(メタデータ) (2022-07-18T14:23:38Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Augmentation-induced Consistency Regularization for Classification [25.388324221293203]
我々はCR-Augと呼ばれるデータ拡張に基づく一貫性の規則化フレームワークを提案する。
CR-Augは、データ拡張によって生成された異なるサブモデルの出力分布を互いに整合するように強制する。
画像と音声の分類タスクにCR-Augを実装し、その有効性を検証するために広範な実験を行う。
論文 参考訳(メタデータ) (2022-05-25T03:15:36Z) - Improving Model Compatibility of Generative Adversarial Networks by
Boundary Calibration [24.28407308818025]
境界キャリブレーションGAN(BCGAN)は、GANのモデル互換性を改善するために提案される。
BCGANはオリジナルのGANのようなリアルなイメージを生成するが、オリジナルのGANよりも優れたモデル互換性を実現する。
論文 参考訳(メタデータ) (2021-11-03T16:08:09Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Learning Hybrid Representation by Robust Dictionary Learning in
Factorized Compressed Space [84.37923242430999]
本研究では,高次圧縮空間における高次低ランクとスパース表現のハイブリッド化を実現するために,頑健な辞書学習(DL)について検討する。
共用ロバスト因子化と射影辞書学習(J-RFDL)モデルを提案する。
論文 参考訳(メタデータ) (2019-12-26T06:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。