論文の概要: Soft-Label Integration for Robust Toxicity Classification
- arxiv url: http://arxiv.org/abs/2410.14894v2
- Date: Thu, 07 Nov 2024 21:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 18:11:22.510814
- Title: Soft-Label Integration for Robust Toxicity Classification
- Title(参考訳): ロバスト毒性分類のためのソフトラベル統合
- Authors: Zelei Cheng, Xian Wu, Jiahao Yu, Shuo Han, Xin-Qiang Cai, Xinyu Xing,
- Abstract要約: この研究は、クラウドソースアノテーションとソフトラベル技術を統合する、新しい双方向最適化フレームワークを導入している。
GroupDROは、アウト・オブ・ディストリビューション(OOD)リスクに対する堅牢性を高めるために使用される。
実験の結果,提案手法は,平均および最悪のグループ精度において,既存のベースライン法よりも優れていた。
- 参考スコア(独自算出の注目度): 39.159343518702805
- License:
- Abstract: Toxicity classification in textual content remains a significant problem. Data with labels from a single annotator fall short of capturing the diversity of human perspectives. Therefore, there is a growing need to incorporate crowdsourced annotations for training an effective toxicity classifier. Additionally, the standard approach to training a classifier using empirical risk minimization (ERM) may fail to address the potential shifts between the training set and testing set due to exploiting spurious correlations. This work introduces a novel bi-level optimization framework that integrates crowdsourced annotations with the soft-labeling technique and optimizes the soft-label weights by Group Distributionally Robust Optimization (GroupDRO) to enhance the robustness against out-of-distribution (OOD) risk. We theoretically prove the convergence of our bi-level optimization algorithm. Experimental results demonstrate that our approach outperforms existing baseline methods in terms of both average and worst-group accuracy, confirming its effectiveness in leveraging crowdsourced annotations to achieve more effective and robust toxicity classification.
- Abstract(参考訳): テキストコンテンツにおける毒性の分類は依然として大きな問題である。
1つのアノテータのラベルを持つデータは、人間の視点の多様性を捉えていない。
そのため、効果的な毒性分類器を訓練するためにクラウドソースアノテーションを組み込む必要性が高まっている。
さらに、経験的リスク最小化(ERM)を用いて分類器を訓練する標準的な手法は、急激な相関を利用してトレーニングセットとテストセットの潜在的なシフトに対処できない可能性がある。
本研究は,クラウドソースアノテーションとソフトラベル技術を統合し,グループ分散ロバスト最適化(GroupDRO)によるソフトラベル重み付けを最適化し,アウト・オブ・ディストリビューション(OOD)リスクに対するロバスト性を高める,新たな双方向最適化フレームワークを導入する。
理論的には、二段階最適化アルゴリズムの収束性を証明している。
提案手法は,クラウドソースアノテーションを有効利用し,より効果的でロバストな毒性分類を実現する上で,有効性を確認した。
関連論文リスト
- Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Group Robust Classification Without Any Group Information [5.053622900542495]
この研究は、グループロバストネスに対する現在のバイアス非教師アプローチが、最適なパフォーマンスを達成するためにグループ情報に依存し続けていることを主張する。
バイアスラベルは依然として効果的なモデル選択に不可欠であり、現実のシナリオにおけるこれらの手法の実用性を制限する。
本稿では, 偏りのないモデルに対して, 完全にバイアスのない方法でトレーニングし, 妥当性を検証するための改訂手法を提案する。
論文 参考訳(メタデータ) (2023-10-28T01:29:18Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Take One Gram of Neural Features, Get Enhanced Group Robustness [23.541213868620837]
経験的リスク最小化で訓練された機械学習モデルの予測性能は、分散シフト下で大幅に低下する可能性がある。
本稿では,識別モデルの抽出した特徴の文法行列に基づいて,トレーニングデータセットをグループに分割する。
このアプローチは、ERMに対するグループロバスト性を向上するだけでなく、最近のすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2022-08-26T12:34:55Z) - Distributionally Robust Learning with Stable Adversarial Training [34.74504615726101]
経験的リスク最小化を伴う機械学習アルゴリズムは、分散シフトの下で脆弱である。
そこで本稿では,異種データソースを活用して,より実用的な不確実性セットを構築する,SAL(Stable Adversarial Learning)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-30T03:05:45Z) - Delving Deep into Label Smoothing [112.24527926373084]
ディープニューラルネットワーク(DNN)の効果的な正規化ツールとしてのラベル平滑化
対象カテゴリのモデル予測の統計に基づいてソフトラベルを生成するオンラインラベル平滑化(OLS)戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T08:03:11Z) - Stable Adversarial Learning under Distributional Shifts [46.98655899839784]
経験的リスク最小化を伴う機械学習アルゴリズムは、分散シフトの下で脆弱である。
本研究では、異種データソースを活用してより実用的な不確実性セットを構築する安定適応学習(SAL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-08T08:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。