論文の概要: People Make Better Edits: Measuring the Efficacy of LLM-Generated
Counterfactually Augmented Data for Harmful Language Detection
- arxiv url: http://arxiv.org/abs/2311.01270v1
- Date: Thu, 2 Nov 2023 14:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 13:11:30.155986
- Title: People Make Better Edits: Measuring the Efficacy of LLM-Generated
Counterfactually Augmented Data for Harmful Language Detection
- Title(参考訳): 人々がより良い編集を行う: 有害言語検出のためのLLM生成逆拡張データの有効性の測定
- Authors: Indira Sen, Dennis Assenmacher, Mattia Samory, Isabelle Augenstein,
Wil van der Aalst, Claudia Wagne
- Abstract要約: NLPモデルは、刺激的な特徴に対して堅牢であることは必須である。
過去の作業は、トレーニングデータ拡張を使用して、このような急激な機能に対処しようと試みてきた。
生成NLPモデルを用いて,このタスクが自動化可能かどうかを評価する。
- 参考スコア(独自算出の注目度): 35.137166614561934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP models are used in a variety of critical social computing tasks, such as
detecting sexist, racist, or otherwise hateful content. Therefore, it is
imperative that these models are robust to spurious features. Past work has
attempted to tackle such spurious features using training data augmentation,
including Counterfactually Augmented Data (CADs). CADs introduce minimal
changes to existing training data points and flip their labels; training on
them may reduce model dependency on spurious features. However, manually
generating CADs can be time-consuming and expensive. Hence in this work, we
assess if this task can be automated using generative NLP models. We
automatically generate CADs using Polyjuice, ChatGPT, and Flan-T5, and evaluate
their usefulness in improving model robustness compared to manually-generated
CADs. By testing both model performance on multiple out-of-domain test sets and
individual data point efficacy, our results show that while manual CADs are
still the most effective, CADs generated by ChatGPT come a close second. One
key reason for the lower performance of automated methods is that the changes
they introduce are often insufficient to flip the original label.
- Abstract(参考訳): nlpモデルは、性差別者、人種差別主義者、その他嫌悪なコンテンツの検出など、様々な重要な社会コンピューティングタスクで使用される。
したがって、これらのモデルがスプリアス機能に対して堅牢であることは必須である。
過去の研究は、CAD(Counterfactually Augmented Data)を含むトレーニングデータ拡張を使用して、このような急激な機能に取り組みました。
CADは既存のトレーニングデータポイントに最小限の変更を導入し、ラベルをフリップする。
しかし、手動でCADを生成するのは時間と費用がかかる。
そこで本研究では,生成NLPモデルを用いて,このタスクが自動化可能かどうかを評価する。
我々は,polyjuice,chatgpt,flan-t5を用いてcadを自動生成し,モデルロバスト性を改善するための有用性を評価する。
複数のドメイン外のテストセットでモデル性能と個々のデータポイントの有効性をテストすることで、手動CADは依然として最も効果的であるが、ChatGPTが生成したCADは2秒間近かった。
自動メソッドのパフォーマンスが低い理由の1つは、彼らが導入した変更が元のラベルをひっくり返すのに不十分であることである。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - With a Little Push, NLI Models can Robustly and Efficiently Predict
Faithfulness [19.79160738554967]
条件付き言語モデルは、入力によってサポートされない不誠実な出力を生成します。
我々は、タスク適応型データ拡張と堅牢な推論手順を組み合わせることで、純粋なNLIモデルの方がより複雑なメトリクスより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:00:04Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Counterfactually Augmented Data and Unintended Bias: The Case of Sexism
and Hate Speech Detection [35.29235215101502]
コア機能を過度に参照すると、意図しないモデルバイアスが発生する可能性がある。
我々は、挑戦的なデータに基づいて性差別とヘイトスピーチ検出のモデルをテストする。
構成駆動で構成に依存しない、さまざまなCADセットを使用することで、意図しないバイアスを減らします。
論文 参考訳(メタデータ) (2022-05-09T12:39:26Z) - How Does Counterfactually Augmented Data Impact Models for Social
Computing Constructs? [35.29235215101502]
本研究では、感情、性差別、ヘイトスピーチという3つのソーシャル・コンピューティング構造に着目し、社会的NLPモデルに対する反実的強化データ(CAD)の利点について検討する。
CADでトレーニングしたモデルではドメイン内性能が低下するが、ドメイン外性能は向上する。
論文 参考訳(メタデータ) (2021-09-14T23:46:39Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。