論文の概要: Leveraging Large Language Models and Topic Modeling for Toxicity Classification
- arxiv url: http://arxiv.org/abs/2411.17876v1
- Date: Tue, 26 Nov 2024 20:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:23.231846
- Title: Leveraging Large Language Models and Topic Modeling for Toxicity Classification
- Title(参考訳): 大規模言語モデルの活用と毒性分類のためのトピックモデリング
- Authors: Haniyeh Ehsani Oskouie, Christina Chance, Claire Huang, Margaret Capetz, Elizabeth Eyeson, Majid Sarrafzadeh,
- Abstract要約: コンテンツモデレーションのためのトピック・モデリング手法を用いて,アノテータの位置がデータセットに与える影響について検討した。
その結果,特定のトピックについてモデルを微調整すると,モデルのF1スコアが顕著に向上することが示唆された。
- 参考スコア(独自算出の注目度): 2.1506858566021037
- License:
- Abstract: Content moderation and toxicity classification represent critical tasks with significant social implications. However, studies have shown that major classification models exhibit tendencies to magnify or reduce biases and potentially overlook or disadvantage certain marginalized groups within their classification processes. Researchers suggest that the positionality of annotators influences the gold standard labels in which the models learned from propagate annotators' bias. To further investigate the impact of annotator positionality, we delve into fine-tuning BERTweet and HateBERT on the dataset while using topic-modeling strategies for content moderation. The results indicate that fine-tuning the models on specific topics results in a notable improvement in the F1 score of the models when compared to the predictions generated by other prominent classification models such as GPT-4, PerspectiveAPI, and RewireAPI. These findings further reveal that the state-of-the-art large language models exhibit significant limitations in accurately detecting and interpreting text toxicity contrasted with earlier methodologies. Code is available at https://github.com/aheldis/Toxicity-Classification.git.
- Abstract(参考訳): コンテンツモデレーションと毒性分類は、重要な社会的意味を持つ重要なタスクである。
しかし、研究では、主要な分類モデルがバイアスを拡大または縮小する傾向を示し、分類プロセス内で特定の辺境化グループを見落としたり不利にしたりする可能性があることが示されている。
研究者らは、アノテータの位置性は、アノテータのバイアスから学習したモデルが金の標準ラベルに影響を与えることを示唆している。
さらに、アノテータの位置性の影響を調べるために、コンテンツモデレーションのためのトピックモデリング戦略を使用しながら、データセット上で細調整されたBERTweetとHateBERTを探索する。
GPT-4, PerspectiveAPI, RewireAPI などの他の顕著な分類モデルによる予測と比較すると, 特定のトピックについてモデルを微調整すると, モデルのF1スコアが顕著に向上することが示唆された。
これらの結果は,従来の手法と対比したテキスト毒性を正確に検出し,解釈する上で,最先端の大規模言語モデルに重大な限界があることを明らかにした。
コードはhttps://github.com/aheldis/Toxicity-Classification.gitで入手できる。
関連論文リスト
- Understanding the Interplay of Scale, Data, and Bias in Language Models: A Case Study with BERT [4.807994469764776]
モデルスケールと事前学習データが学習した社会バイアスに与える影響について検討する。
実験の結果,事前学習したデータは,モデルスケールで上流バイアスがどのように進化するかに大きな影響を及ぼすことがわかった。
データとモデルスケールの複雑な相互作用に光を当て、それが具体的なバイアスにどのように変換されるかを調査しました。
論文 参考訳(メタデータ) (2024-07-25T23:09:33Z) - Evaluating Model Bias Requires Characterizing its Mistakes [19.777130236160712]
スキューサイズ(SkewSize)は、モデルの予測における誤りからバイアスを捉える、原則付きフレキシブルなメトリクスである。
マルチクラスの設定で使用したり、生成モデルのオープンな語彙設定に一般化することができる。
合成データで訓練された標準的な視覚モデル、ImageNetで訓練された視覚モデル、BLIP-2ファミリーの大規模視覚言語モデルなどである。
論文 参考訳(メタデータ) (2024-07-15T11:46:21Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - A Visual Interpretation-Based Self-Improved Classification System Using
Virtual Adversarial Training [4.722922834127293]
本稿では,仮想対人訓練(VAT)とBERTモデルを組み合わせた視覚的解釈に基づく自己改善型分類モデルを提案する。
具体的には、テキストの感情を分類するための分類器として、微調整のBERTモデルを用いる。
予測された感情分類ラベルは、半教師付き訓練方法によるスパム分類のための別のBERTの入力の一部として使用される。
論文 参考訳(メタデータ) (2023-09-03T15:07:24Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。