論文の概要: Ustnlp16 at SemEval-2025 Task 9: Improving Model Performance through Imbalance Handling and Focal Loss
- arxiv url: http://arxiv.org/abs/2505.00021v1
- Date: Thu, 24 Apr 2025 16:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.098622
- Title: Ustnlp16 at SemEval-2025 Task 9: Improving Model Performance through Imbalance Handling and Focal Loss
- Title(参考訳): Ustnlp16 at SemEval-2025 Task 9: Im Balance Handling と Focal Loss によるモデル性能の向上
- Authors: Zhuoang Cai, Zhenghao Li, Yang Liu, Liyuan Guo, Yangqiu Song,
- Abstract要約: 分類タスクは、しばしば厳しいクラス不均衡、短いテキストと非構造化テキスト、および重なり合うセマンティックカテゴリに悩まされる。
本稿では,SemEval-2025 Task 9: Food Hazard Detectionを提案する。
- 参考スコア(独自算出の注目度): 38.70308073598037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification tasks often suffer from imbal- anced data distribution, which presents chal- lenges in food hazard detection due to severe class imbalances, short and unstructured text, and overlapping semantic categories. In this paper, we present our system for SemEval- 2025 Task 9: Food Hazard Detection, which ad- dresses these issues by applying data augmenta- tion techniques to improve classification perfor- mance. We utilize transformer-based models, BERT and RoBERTa, as backbone classifiers and explore various data balancing strategies, including random oversampling, Easy Data Augmentation (EDA), and focal loss. Our ex- periments show that EDA effectively mitigates class imbalance, leading to significant improve- ments in accuracy and F1 scores. Furthermore, combining focal loss with oversampling and EDA further enhances model robustness, par- ticularly for hard-to-classify examples. These findings contribute to the development of more effective NLP-based classification models for food hazard detection.
- Abstract(参考訳): 分類タスクは、重度の階級不均衡、短文と非構造テキスト、重なり合う意味カテゴリーによる食品の危険検出において、チョールレンジを提示する非言語的なデータ分布に悩まされることが多い。
本稿では,SemEval-2025 Task 9: Food Hazard Detectionを提案する。
我々は、変換器ベースモデルであるBERTとRoBERTaをバックボーン分類器として使用し、ランダムオーバーサンプリング、EDA(Easy Data Augmentation)、焦点損失など、さまざまなデータバランシング戦略を探索する。
以上の結果から,EDAはクラス不均衡を効果的に軽減し,精度とF1得点の大幅な改善につながった。
さらに、焦点損失とオーバーサンプリングとEDAを組み合わせることで、モデルロバスト性をさらに強化する。
これらの知見は, 食品危険度検出のためのより効果的なNLP分類モデルの開発に寄与する。
関連論文リスト
- Wafer Map Defect Classification Using Autoencoder-Based Data Augmentation and Convolutional Neural Network [4.8748194765816955]
本研究では、自己エンコーダに基づくデータ拡張技術と畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。
提案手法は,ランダムフォレスト,SVM,ロジスティック回帰をそれぞれ19%,21%,27%以上,98.56%の分類精度を達成している。
論文 参考訳(メタデータ) (2024-11-17T10:19:54Z) - Energy Score-based Pseudo-Label Filtering and Adaptive Loss for Imbalanced Semi-supervised SAR target recognition [1.2035771704626825]
既存の半教師付きSAR ATRアルゴリズムは、クラス不均衡の場合、認識精度が低い。
この研究は、動的エネルギースコアと適応損失を用いた非平衡半教師付きSAR目標認識手法を提供する。
論文 参考訳(メタデータ) (2024-11-06T14:45:16Z) - Systematic Evaluation of Synthetic Data Augmentation for Multi-class NetFlow Traffic [2.5182419298876857]
マルチクラス分類モデルは特定のタイプの攻撃を識別し、より標的的で効果的なインシデント応答を可能にする。
最近の進歩は、生成モデルがデータの増大を補助し、不均衡なデータセットに対して優れたソリューションを提供すると主張することを示唆している。
本実験は,トレーニングデータのバランスをとる再サンプリング手法が,分類性能を確実に向上させるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-08-28T12:44:07Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for
Replay Attack Detection [10.851348154870852]
我々は、アンチ・スプーフィングにおいては、モデリングプロセスにおいて容易に分類されたサンプルよりも識別不能なサンプルに注意が必要であると論じている。
本研究は, サンプル自体の特性に基づいて, 損失を動的にスケールする訓練目的として, バランスの取れた焦点損失関数を活用することを提案する。
相補的な特徴により、3種類の機能しか持たない融合系は他のシステムよりも22.5%、min-tDCFが7%、EERが7%向上する。
論文 参考訳(メタデータ) (2020-06-25T17:06:47Z) - Data Augmentation Imbalance For Imbalanced Attribute Classification [60.71438625139922]
本稿では,データ拡張不均衡(DAI)と呼ばれる新しい再サンプリングアルゴリズムを提案する。
我々のDAIアルゴリズムは歩行者属性のデータセットに基づいて最先端の結果を得る。
論文 参考訳(メタデータ) (2020-04-19T20:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。