論文の概要: Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity
Detection Through Feedback
- arxiv url: http://arxiv.org/abs/2305.10433v1
- Date: Thu, 11 May 2023 11:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-21 10:35:38.137900
- Title: Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity
Detection Through Feedback
- Title(参考訳): 毒性インスペクタ:フィードバックによる毒性検出における基礎的真理評価の枠組み
- Authors: Huriyyah Althunayan, Rahaf Bahlas, Manar Alharbi, Lena Alsuwailem,
Abeer Aldayel, Rehab ALahmadi
- Abstract要約: 本稿では,ヒト・イン・ザ・ループパイプラインを組み込んだ毒性検査フレームワークを提案する。
これは、反復的なフィードバックサイクルを通じて評価者の値を集中させることで、毒性ベンチマークデータセットの信頼性を高めることを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxic language is difficult to define, as it is not monolithic and has many
variations in perceptions of toxicity. This challenge of detecting toxic
language is increased by the highly contextual and subjectivity of its
interpretation, which can degrade the reliability of datasets and negatively
affect detection model performance. To fill this void, this paper introduces a
toxicity inspector framework that incorporates a human-in-the-loop pipeline
with the aim of enhancing the reliability of toxicity benchmark datasets by
centering the evaluator's values through an iterative feedback cycle. The
centerpiece of this framework is the iterative feedback process, which is
guided by two metric types (hard and soft) that provide evaluators and dataset
creators with insightful examination to balance the tradeoff between
performance gains and toxicity avoidance.
- Abstract(参考訳): トックス言語はモノリシックではないため定義が困難であり、毒性の知覚に多くのバリエーションがある。
有害言語を検出するというこの課題は、その解釈の文脈と主観性によって増大し、データセットの信頼性を低下させ、検出モデルの性能に悪影響を及ぼす可能性がある。
この空白を埋めるため,本稿では,繰り返しフィードバックサイクルを通じて評価器の値に集中することにより,有毒性ベンチマークデータセットの信頼性を高めることを目的とした,人道的パイプラインを組み込んだ有毒性検査フレームワークを提案する。
このフレームワークの中心は反復的なフィードバックプロセスであり、評価者やデータセット作成者に対して、パフォーマンス向上と毒性回避のトレードオフをバランスさせる洞察力のある検査を提供する、2つのメトリクスタイプ(ハードとソフト)によって導かれる。
関連論文リスト
- A Collaborative Content Moderation Framework for Toxicity Detection based on Conformalized Estimates of Annotation Disagreement [7.345136916791223]
アノテーションの不一致を捉えることの重要性を強調する新しいコンテンツモデレーションフレームワークを導入する。
我々は、コメントアノテーションの曖昧さと、毒性と不一致を予測するモデル固有の不確実性の両方を考慮するために、不確実性推定技術、特にコンフォーマル予測を利用する。
論文 参考訳(メタデータ) (2024-11-06T18:08:57Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - On the definition of toxicity in NLP [2.1830650692803863]
この研究は、客観的かつ文脈に配慮した新しいストレスレベルに基づく毒性の定義を示唆している。
それと同等に、データセットの作成とモデルのトレーニングにこの新しい定義を適用する方法についても説明します。
論文 参考訳(メタデータ) (2023-10-03T18:32:34Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。
単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。
このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文 参考訳(メタデータ) (2021-03-01T22:17:10Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。