論文の概要: RankAug: Augmented data ranking for text classification
- arxiv url: http://arxiv.org/abs/2311.04535v1
- Date: Wed, 8 Nov 2023 08:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:24:20.323384
- Title: RankAug: Augmented data ranking for text classification
- Title(参考訳): RankAug: テキスト分類のための拡張データランキング
- Authors: Tiasa Singha Roy and Priyam Basu
- Abstract要約: RankAugはテキストレベルのアプローチで、上位の強化テキストを検出し、フィルタリングする。
分類精度を35%まで向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Research on data generation and augmentation has been focused majorly on
enhancing generation models, leaving a notable gap in the exploration and
refinement of methods for evaluating synthetic data. There are several text
similarity metrics within the context of generated data filtering which can
impact the performance of specific Natural Language Understanding (NLU) tasks,
specifically focusing on intent and sentiment classification. In this study, we
propose RankAug, a text-ranking approach that detects and filters out the top
augmented texts in terms of being most similar in meaning with lexical and
syntactical diversity. Through experiments conducted on multiple datasets, we
demonstrate that the judicious selection of filtering techniques can yield a
substantial improvement of up to 35% in classification accuracy for
under-represented classes.
- Abstract(参考訳): データ生成と拡張の研究は、主に生成モデルの改善に焦点が当てられ、合成データを評価する方法の探究と洗練に顕著なギャップが残されている。
生成されたデータフィルタリングのコンテキスト内には、特定の自然言語理解(nlu)タスクのパフォーマンス、特に意図と感情の分類に影響を及ぼすいくつかのテキスト類似度メトリクスがある。
本研究では,辞書や構文の多様性に最もよく似ているという観点から,上位拡張テキストの検出とフィルタリングを行うテキストランキング手法であるrankaugを提案する。
複数のデータセットで行った実験を通じて,フィルタリング手法を適切に選択することで,上位クラスの分類精度を最大35%向上できることを示した。
関連論文リスト
- Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。
本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文 参考訳(メタデータ) (2024-11-22T12:37:41Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - Classification and Clustering of Sentence-Level Embeddings of Scientific Articles Generated by Contrastive Learning [1.104960878651584]
提案手法は,科学論文から文レベルの埋め込みを生成するための微調整変換言語モデルで構成されている。
対照的な学習で3つのデータセットでモデルをトレーニングしました。
比較学習と下流タスクへの埋め込みを併用した微調整文変換器は,学術論文における文分類への実現可能なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-30T02:52:14Z) - Selective Text Augmentation with Word Roles for Low-Resource Text
Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T08:13:11Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - What Have Been Learned & What Should Be Learned? An Empirical Study of
How to Selectively Augment Text for Classification [0.0]
本稿では,STA(Selective Text Augmentation)を用いてテキストを選択的に拡張する手法を提案する。
4つの英語と中国語のテキスト分類ベンチマークデータセットの実験により、STAは非選択的なテキスト拡張法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2021-09-01T04:03:11Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - GenAug: Data Augmentation for Finetuning Text Generators [21.96895115572357]
本稿では,Yelp Reviews のサブセット上で GPT-2 を微調整するための外部知識を含む様々な拡張手法を提案し,評価する。
実験により,文字レベルの合成ノイズの挿入とハイパーネムのキーワード置換が効果的な拡張法であることを実証した。
論文 参考訳(メタデータ) (2020-10-05T05:46:39Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Deep Learning feature selection to unhide demographic recommender
systems factors [63.732639864601914]
行列分解モデルは意味的知識を含まない因子を生成する。
DeepUnHideは、協調フィルタリングレコメンデータシステムにおいて、ユーザとアイテムファクタから、人口統計情報を抽出することができる。
論文 参考訳(メタデータ) (2020-06-17T17:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。