論文の概要: BrightCookies at SemEval-2025 Task 9: Exploring Data Augmentation for Food Hazard Classification
- arxiv url: http://arxiv.org/abs/2504.20703v1
- Date: Tue, 29 Apr 2025 12:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.891217
- Title: BrightCookies at SemEval-2025 Task 9: Exploring Data Augmentation for Food Hazard Classification
- Title(参考訳): SemEval-2025 Task 9におけるBrightCookies: 食品ハザード分類のためのデータ拡張の探索
- Authors: Foteini Papadopoulou, Osman Mutlu, Neris Özen, Bas H. M. van der Velden, Iris Hendrickx, Ali Hürriyetoğlu,
- Abstract要約: 本稿では,SemEval-2025 Task 9: The Food Hazard Detection Challengeのためのシステムについて述べる。
本研究の目的は,食品リコール事故報告から,危険物と商品を2段階の粒度に分類する,説明可能な分類システムを評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our system developed for the SemEval-2025 Task 9: The Food Hazard Detection Challenge. The shared task's objective is to evaluate explainable classification systems for classifying hazards and products in two levels of granularity from food recall incident reports. In this work, we propose text augmentation techniques as a way to improve poor performance on minority classes and compare their effect for each category on various transformer and machine learning models. We explore three word-level data augmentation techniques, namely synonym replacement, random word swapping, and contextual word insertion. The results show that transformer models tend to have a better overall performance. None of the three augmentation techniques consistently improved overall performance for classifying hazards and products. We observed a statistically significant improvement (P < 0.05) in the fine-grained categories when using the BERT model to compare the baseline with each augmented model. Compared to the baseline, the contextual words insertion augmentation improved the accuracy of predictions for the minority hazard classes by 6%. This suggests that targeted augmentation of minority classes can improve the performance of transformer models.
- Abstract(参考訳): 本稿では,SemEval-2025 Task 9: The Food Hazard Detection Challengeのためのシステムについて述べる。
本研究の目的は,食品リコール事故報告から,危険物と商品を2段階の粒度に分類する,説明可能な分類システムを評価することである。
本研究では,マイノリティクラスにおける低性能化のためのテキスト強化手法を提案し,各カテゴリにおける各種トランスフォーマーモデルと機械学習モデルの比較を行った。
我々は3つの単語レベルのデータ拡張手法、すなわち同義語置換、ランダムな単語スワップ、文脈的単語挿入について検討する。
その結果,トランスモデルの全体的な性能が向上する傾向が示唆された。
3つの強化手法のいずれも、危険物と製品を分類するための全体的なパフォーマンスを一貫して改善するものではない。
BERTモデルを用いて各拡張モデルと比較した場合, 細粒度カテゴリーにおいて統計的に有意な改善(P < 0.05)が認められた。
ベースラインと比較すると,文脈単語の挿入により,マイノリティーハザードクラスの予測精度が6%向上した。
このことは、マイノリティクラスを対象とする拡張がトランスフォーマーモデルの性能を向上させることを示唆している。
関連論文リスト
- Multi-Level Attention and Contrastive Learning for Enhanced Text Classification with an Optimized Transformer [0.0]
本稿では,テキスト分類タスクにおけるモデルの性能と効率を改善するために,改良されたトランスフォーマーに基づくテキスト分類アルゴリズムについて検討する。
改良されたTransformerモデルは、BiLSTM、CNN、標準Transformer、BERTといった比較モデルよりも、分類精度、F1スコア、リコールレートで優れている。
論文 参考訳(メタデータ) (2025-01-23T08:32:27Z) - Exploring Data Augmentations on Self-/Semi-/Fully- Supervised
Pre-trained Models [24.376036129920948]
本研究では,データ拡張が視力事前訓練モデルの性能に与える影響について検討する。
ランダム消去(Random Erasing)、CutOut(CutOut)、CutMix(CutMix)、MixUp(MixUp)という4種類のデータ拡張を適用します。
画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなどの視覚タスクにおける性能について報告する。
論文 参考訳(メタデータ) (2023-10-28T23:46:31Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - DiffAug: A Diffuse-and-Denoise Augmentation for Training Robust Classifiers [6.131022957085439]
DiffAugは、画像分類器を訓練するためのシンプルで効率的な拡散に基づく拡張手法である。
与えられた例にDiffAugを適用すると、1つの前方拡散ステップと1つの逆拡散ステップからなる。
論文 参考訳(メタデータ) (2023-06-15T15:19:25Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - CAISA at SemEval-2023 Task 8: Counterfactual Data Augmentation for
Mitigating Class Imbalance in Causal Claim Identification [8.566457170664926]
医学的クレームの識別のための動詞置換による新しいデータ拡張を提案する。
さらに,本手法の影響について検討し,他の3つのデータ拡張手法との比較を行った。
論文 参考訳(メタデータ) (2023-06-01T04:55:43Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Rethinking the Augmentation Module in Contrastive Learning: Learning
Hierarchical Augmentation Invariance with Expanded Views [22.47152165975219]
データ拡張モジュールは、データサンプルを2つのビューに変換するために、対照的な学習に使用される。
本稿では, 一般的なコントラスト学習フレームワークにおいて, コントラストとコントラストを考慮し, これら2つの問題を緩和する一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T04:30:46Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。