論文の概要: A Diversity-Enhanced and Constraints-Relaxed Augmentation for
Low-Resource Classification
- arxiv url: http://arxiv.org/abs/2109.11834v1
- Date: Fri, 24 Sep 2021 09:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:16:11.230829
- Title: A Diversity-Enhanced and Constraints-Relaxed Augmentation for
Low-Resource Classification
- Title(参考訳): 低リソース分類のための多様性強化と制約緩和
- Authors: Guang Liu, Hailong Huang, Yuzhao Mao, Weiguo Gao, Xuan Li, Jianping
Shen
- Abstract要約: LRCでは、強い制約があるがDAの弱い多様性は、分類器の能力の一般化を損なう。
DECRA(Diversity-Enhanced and Constraints-Relaxed Augmentation)を提案する。
私たちのDECRAには、トランスベースのバックボーンモデルの上に2つの重要なコンポーネントがあります。
- 参考スコア(独自算出の注目度): 8.05097035573437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation (DA) aims to generate constrained and diversified data to
improve classifiers in Low-Resource Classification (LRC). Previous studies
mostly use a fine-tuned Language Model (LM) to strengthen the constraints but
ignore the fact that the potential of diversity could improve the effectiveness
of generated data. In LRC, strong constraints but weak diversity in DA result
in the poor generalization ability of classifiers. To address this dilemma, we
propose a {D}iversity-{E}nhanced and {C}onstraints-\{R}elaxed {A}ugmentation
(DECRA). Our DECRA has two essential components on top of a transformer-based
backbone model. 1) A k-beta augmentation, an essential component of DECRA, is
proposed to enhance the diversity in generating constrained data. It expands
the changing scope and improves the degree of complexity of the generated data.
2) A masked language model loss, instead of fine-tuning, is used as a
regularization. It relaxes constraints so that the classifier can be trained
with more scattered generated data. The combination of these two components
generates data that can reach or approach category boundaries and hence help
the classifier generalize better. We evaluate our DECRA on three public
benchmark datasets under low-resource settings. Extensive experiments
demonstrate that our DECRA outperforms state-of-the-art approaches by 3.8% in
the overall score.
- Abstract(参考訳): データ拡張(DA)は、制約付きおよび多様化されたデータを生成し、低リソース分類(LRC)における分類器を改善することを目的としている。
従来の研究では、制約を強化するために微調整言語モデル(LM)がほとんどであったが、多様性の可能性によって生成されたデータの有効性が向上するという事実は無視されていた。
LRCでは、強い制約があるがDAの弱い多様性は、分類器の一般化能力の低下をもたらす。
このジレンマに対処するために、D}iversity-{E}nhanced と {C}onstraints-\{R}elaxed {A}ugmentation (DECRA) を提案する。
私たちのdecraには、トランスフォーマーベースのバックボーンモデル上に2つの重要なコンポーネントがあります。
1) 制約データの生成における多様性を高めるため,DECRAの必須成分であるkベータ拡張を提案する。
変更範囲を拡大し、生成されたデータの複雑さの度合いを向上する。
2)微調整の代わりにマスク付き言語モデル損失が正規化として使用される。
制約を緩和することで、より分散した生成されたデータで分類器をトレーニングすることが可能になる。
これら2つのコンポーネントの組み合わせは、カテゴリ境界に到達または接近可能なデータを生成し、分類器の一般化に役立つ。
低リソース環境下での3つの公開ベンチマークデータセットに対するDECRAの評価を行った。
大規模な実験により、我々のDECRAは最先端のアプローチを3.8%上回る結果となった。
関連論文リスト
- Data Augmentation for Image Classification using Generative AI [8.74488498507946]
データ拡張はデータセットのサイズを拡大するための有望なソリューションである。
最近のアプローチでは、生成AIモデルを使用してデータセットの多様性を改善している。
我々はAGA(Automated Generative Data Augmentation)を提案する。
論文 参考訳(メタデータ) (2024-08-31T21:16:43Z) - A robust three-way classifier with shadowed granular-balls based on justifiable granularity [53.39844791923145]
我々は、不確実なデータのために、影付きGBの頑健な3方向分類器を構築した。
本モデルでは,不確実なデータ管理を実証し,分類リスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-07-03T08:54:45Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Augmentation-induced Consistency Regularization for Classification [25.388324221293203]
我々はCR-Augと呼ばれるデータ拡張に基づく一貫性の規則化フレームワークを提案する。
CR-Augは、データ拡張によって生成された異なるサブモデルの出力分布を互いに整合するように強制する。
画像と音声の分類タスクにCR-Augを実装し、その有効性を検証するために広範な実験を行う。
論文 参考訳(メタデータ) (2022-05-25T03:15:36Z) - Improving Model Compatibility of Generative Adversarial Networks by
Boundary Calibration [24.28407308818025]
境界キャリブレーションGAN(BCGAN)は、GANのモデル互換性を改善するために提案される。
BCGANはオリジナルのGANのようなリアルなイメージを生成するが、オリジナルのGANよりも優れたモデル互換性を実現する。
論文 参考訳(メタデータ) (2021-11-03T16:08:09Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。