Fugu-MT 論文翻訳(概要): On the definition of toxicity in NLP

論文の概要: On the definition of toxicity in NLP

arxiv url: http://arxiv.org/abs/2310.02357v2
Date: Thu, 5 Oct 2023 12:36:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 11:02:38.835624
Title: On the definition of toxicity in NLP
Title（参考訳）: NLPにおける毒性の定義について
Authors: Sergey Berezin, Reza Farahbakhsh, Noel Crespi
Abstract要約: この研究は、客観的かつ文脈に配慮した新しいストレスレベルに基づく毒性の定義を示唆している。それと同等に、データセットの作成とモデルのトレーニングにこの新しい定義を適用する方法についても説明します。
参考スコア（独自算出の注目度）: 2.1830650692803863
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The fundamental problem in toxicity detection task lies in the fact that the toxicity is ill-defined. This causes us to rely on subjective and vague data in models' training, which results in non-robust and non-accurate results: garbage in - garbage out. This work suggests a new, stress-level-based definition of toxicity designed to be objective and context-aware. On par with it, we also describe possible ways of applying this new definition to dataset creation and model training.
Abstract（参考訳）: 毒性検出タスクの根本的な問題は、毒性が不定義であるという事実にある。これにより、モデルトレーニングで主観的およびあいまいなデータに依存するようになり、それが非ロバストおよび非正確な結果になる: ガベージイン - ガベージアウト。この研究は、客観的かつ文脈に配慮した新しいストレスレベルに基づく毒性の定義を示唆している。それと同等に、この新たな定義をデータセットの作成とモデルトレーニングに適用する可能性についても説明します。

関連論文リスト

Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA [0.0]
このデータセットは、LLaVA事前トレーニングデータセットにおいて、有害な画像テキストペアの7,531を除去する。堅牢な毒性検出パイプラインを実装するためのガイドラインを提供する。
論文参考訳（メタデータ） (2025-05-09T18:01:50Z)
When Bad Data Leads to Good Models [44.897123018926486]
大規模言語モデル(LLM)事前トレーニングでは、データ品質がモデルの品質を決定すると考えられている。我々は,事前・後共同設計の観点から,「品質」の概念を再検討する。
論文参考訳（メタデータ） (2025-05-07T19:17:49Z)
Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection [1.9424018922013224]
本研究は, 毒性検出のための新しい, 客観的, コンテキスト認識の枠組みを紹介する。我々は、フレームワークの一部として、新しい定義、メートル法、トレーニングアプローチを提案し、その有効性を実証する。
論文参考訳（メタデータ） (2025-03-20T12:09:01Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
ToXCL: A Unified Framework for Toxic Speech Detection and Explanation [3.803993344850168]
ToXCLは暗黙の有毒音声の検出と説明のための統合されたフレームワークである。 ToXCLは、新しい最先端の有効性を実現し、ベースラインを大幅に上回る。
論文参考訳（メタデータ） (2024-03-25T12:21:38Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。既存の解毒法では、解毒効果と生成品質のバランスが取れない。文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文参考訳（メタデータ） (2023-08-16T11:50:38Z)
Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity Detection Through Feedback [0.0]
本稿では,ヒト・イン・ザ・ループパイプラインを組み込んだ毒性検査フレームワークを提案する。これは、反復的なフィードバックサイクルを通じて評価者の値を集中させることで、毒性ベンチマークデータセットの信頼性を高めることを目的としている。
論文参考訳（メタデータ） (2023-05-11T11:56:42Z)
Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文参考訳（メタデータ） (2022-04-30T18:25:18Z)
Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文参考訳（メタデータ） (2021-11-19T13:57:26Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文参考訳（メタデータ） (2021-03-01T22:17:10Z)
Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文参考訳（メタデータ） (2021-01-29T22:03:17Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。