論文の概要: PromptAug: Fine-grained Conflict Classification Using Data Augmentation
- arxiv url: http://arxiv.org/abs/2506.22491v1
- Date: Tue, 24 Jun 2025 15:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.412943
- Title: PromptAug: Fine-grained Conflict Classification Using Data Augmentation
- Title(参考訳): PromptAug: データ拡張を用いたきめ細かい衝突分類
- Authors: Oliver Warke, Joemon M. Jose, Faegheh Hasibi, Jan Breitsohl,
- Abstract要約: 競合関連データの増大は、Large Language Modelガードレールによって、ユニークな課題を引き起こします。
本稿では,革新的なLCMに基づくデータ拡張手法であるPromptAugを紹介する。
PromptAugは、コンフリクトと感情データセットの精度とF1スコアの両方で2%の統計的に有意な改善を行った。
- 参考スコア(独自算出の注目度): 5.053303126748248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the rise of conflicts on social media, effective classification models to detect harmful behaviours are essential. Following the garbage-in-garbage-out maxim, machine learning performance depends heavily on training data quality. However, high-quality labelled data, especially for nuanced tasks like identifying conflict behaviours, is limited, expensive, and difficult to obtain. Additionally, as social media platforms increasingly restrict access to research data, text data augmentation is gaining attention as an alternative to generate training data. Augmenting conflict-related data poses unique challenges due to Large Language Model (LLM) guardrails that prevent generation of offensive content. This paper introduces PromptAug, an innovative LLM-based data augmentation method. PromptAug achieves statistically significant improvements of 2% in both accuracy and F1-score on conflict and emotion datasets. To thoroughly evaluate PromptAug against other data augmentation methods we conduct a robust evaluation using extreme data scarcity scenarios, quantitative diversity analysis and a qualitative thematic analysis. The thematic analysis identifies four problematic patterns in augmented text: Linguistic Fluidity, Humour Ambiguity, Augmented Content Ambiguity, and Augmented Content Misinterpretation. Overall, this work presents PromptAug as an effective method for augmenting data in sensitive tasks like conflict detection, offering a unique, interdisciplinary evaluation grounded in both natural language processing and social science methodology.
- Abstract(参考訳): ソーシャルメディア上での対立の高まりを考えると、有害な行動を検出する効果的な分類モデルが不可欠である。
ガベージ・イン・ガベージ・アウトの最大値に従うと、機械学習のパフォーマンスはトレーニングデータの品質に大きく依存する。
しかし、特に紛争行動の特定のようなニュアンスなタスクにおいて、高品質なラベル付きデータは制限され、高価であり、入手が困難である。
さらに、ソーシャルメディアプラットフォームは研究データへのアクセスをますます制限しているため、トレーニングデータを生成する代替手段として、テキストデータ拡張が注目されている。
競合関連データの増大は、攻撃的コンテンツの生成を防ぐLarge Language Model (LLM)ガードレールによって、ユニークな課題を生じさせる。
本稿では,革新的なLCMに基づくデータ拡張手法であるPromptAugを紹介する。
PromptAugは、コンフリクトと感情データセットの精度とF1スコアの両方において、統計的に有意な2%の改善を実現している。
PromptAugを他のデータ拡張手法に対して徹底的に評価するために、極端なデータ不足シナリオ、定量的多様性分析、質的テーマ解析を用いて堅牢な評価を行う。
Thethematic analysis is identified four problems pattern in augmented text: Linguistic fluidity, Humour Ambiguity, Augmented Content Ambiguity, Augmented Content Mispretation。
この研究は、PmptAugを、紛争検出などのセンシティブなタスクにおけるデータ強化の効果的な方法として提示し、自然言語処理と社会科学方法論の両方に基礎を置いた、ユニークな学際評価を提供する。
関連論文リスト
- Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods [13.14749943120523]
テキストが人工知能(AI)によって作成されたかどうかを知ることは、その信頼性を決定する上で重要である。
AIGT検出に対する最先端のアプローチには、透かし、統計学的およびスタイリスティック分析、機械学習分類などがある。
AIGTテキストがどのようなシナリオで「検出可能」であるかを判断するために、結合する健全な要因についての洞察を提供することを目指している。
論文 参考訳(メタデータ) (2024-06-21T18:31:49Z) - Data Augmentation for Emotion Detection in Small Imbalanced Text Data [0.0]
課題の1つは、感情で注釈付けされた利用可能なデータセットが不足していることだ。
我々は、小さな不均衡なデータセットに適用した場合に、データ拡張技術が与える影響を正確に調査した。
実験結果から,分類器モデルの訓練に拡張データを用いることで,大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-10-25T21:29:36Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Through the Data Management Lens: Experimental Analysis and Evaluation
of Fair Classification [75.49600684537117]
データ管理研究は、データとアルゴリズムの公平性に関連するトピックに対する存在感と関心が高まっている。
我々は,その正しさ,公平性,効率性,スケーラビリティ,安定性よりも,13の公正な分類アプローチと追加の変種を幅広く分析している。
我々の分析は、異なるメトリクスとハイレベルなアプローチ特性がパフォーマンスの異なる側面に与える影響に関する新しい洞察を強調します。
論文 参考訳(メタデータ) (2021-01-18T22:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。