Fugu-MT 論文翻訳(概要): Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection

論文の概要: Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection

arxiv url: http://arxiv.org/abs/2503.16072v2
Date: Sat, 31 May 2025 12:02:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:43.218572
Title: Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection
Title（参考訳）: 毒性の再定義:ストレスレベル検出のための客観的かつコンテキスト認識アプローチ
Authors: Sergey Berezin, Reza Farahbakhsh, Noel Crespi,
Abstract要約: ほとんどの毒性検出モデルは、毒性を本質的なテキストの性質として扱い、その影響を形作る上での文脈の役割を見越す。我々は毒性を社会的に創発的なストレス信号として再認識する。本稿では, 毒性検出のための新しいフレームワークについて紹介し, 公式な定義と基準, 新たなデータセットに対するアプローチの検証を行った。
参考スコア（独自算出の注目度）: 1.9424018922013224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most toxicity detection models treat toxicity as an intrinsic property of text, overlooking the role of context in shaping its impact. Drawing on interdisciplinary research, we reconceptualise toxicity as a socially emergent stress signal. We introduce a new framework for toxicity detection, including a formal definition and metric, and validate our approach on a novel dataset, demonstrating improved contextual sensitivity and adaptability.
Abstract（参考訳）: ほとんどの毒性検出モデルは、毒性を本質的なテキストの性質として扱い、その影響を形作る上での文脈の役割を見越す。我々は学際的な研究に基づいて、毒性を社会的に創発的なストレス信号として再認識する。本稿では, 毒性検出のための新しいフレームワークについて紹介し, 形式的定義と計量, 新たなデータセットに対するアプローチの妥当性を検証し, 文脈感度と適応性の向上を実証した。

関連論文リスト

GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。 GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文参考訳（メタデータ） (2025-05-20T08:29:11Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
Mimicking How Humans Interpret Out-of-Context Sentences Through Controlled Toxicity Decoding [1.4963011898406866]
本研究の目的は,テキスト外文の多種多様な解釈を生成することにより,読者が各種毒性レベルのコンテンツをどのように知覚するかをシミュレートすることである。毒性をモデル化することにより、誤解を予測し、隠れた有毒な意味を明らかにすることができる。
論文参考訳（メタデータ） (2025-03-11T08:16:31Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
ToXCL: A Unified Framework for Toxic Speech Detection and Explanation [3.803993344850168]
ToXCLは暗黙の有毒音声の検出と説明のための統合されたフレームワークである。 ToXCLは、新しい最先端の有効性を実現し、ベースラインを大幅に上回る。
論文参考訳（メタデータ） (2024-03-25T12:21:38Z)
Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文参考訳（メタデータ） (2024-02-10T07:55:27Z)
On the definition of toxicity in NLP [2.1830650692803863]
この研究は、客観的かつ文脈に配慮した新しいストレスレベルに基づく毒性の定義を示唆している。それと同等に、データセットの作成とモデルのトレーニングにこの新しい定義を適用する方法についても説明します。
論文参考訳（メタデータ） (2023-10-03T18:32:34Z)
On Practical Aspects of Aggregation Defenses against Data Poisoning Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文参考訳（メタデータ） (2023-06-28T17:59:35Z)
Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity Detection Through Feedback [0.0]
本稿では,ヒト・イン・ザ・ループパイプラインを組み込んだ毒性検査フレームワークを提案する。これは、反復的なフィードバックサイクルを通じて評価者の値を集中させることで、毒性ベンチマークデータセットの信頼性を高めることを目的としている。
論文参考訳（メタデータ） (2023-05-11T11:56:42Z)
Analysis and Detectability of Offline Data Poisoning Attacks on Linear Dynamical Systems [0.30458514384586405]
統計検査のレンズを用いて最小二乗推定値に有毒が及ぼす影響について検討した。古典的な統計的テストから逃れることのできる最小二乗推定器に対するステルスデータ中毒攻撃を提案する。
論文参考訳（メタデータ） (2022-11-16T10:01:03Z)
Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文参考訳（メタデータ） (2022-04-30T18:25:18Z)
Handling Bias in Toxic Speech Detection: A Survey [26.176340438312376]
本稿では,有毒な音声検出におけるバイアスの評価と緩和手法について検討する。ケーススタディでは、知識に基づくバイアス緩和によるバイアスシフトの概念を紹介している。調査は、重要な課題、研究のギャップ、今後の方向性の概要で締めくくっている。
論文参考訳（メタデータ） (2022-01-26T10:38:36Z)
Revisiting Contextual Toxicity Detection in Conversations [28.465019968374413]
ヒトによる毒性のラベル付けは、一般的に、会話の構造、極性、文脈の話題に影響されている。本稿では、文脈毒性検出のためのニューラルネットワークを導入して、これらの知見を計算検出モデルに適用することを提案する。また、このようなモデルが、特にソーシャルメディア領域において、合成データの恩恵を受けることを実証した。
論文参考訳（メタデータ） (2021-11-24T11:50:37Z)
Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文参考訳（メタデータ） (2021-11-19T13:57:26Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文参考訳（メタデータ） (2021-01-29T22:03:17Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。