Fugu-MT 論文翻訳(概要): Understanding Toxicity Triggers on Reddit in the Context of Singapore

関連論文リスト

Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework [58.01529356381494]
Toxicity Association Graphs (TAG) に基づく新しい検出フレームワークを提案する。隠れ毒性の定量化のための最初の指標であるMTC(Multimodal Toxicity Covertness)を紹介する。本手法は,意思決定プロセスの完全解釈可能性を維持しつつ,隠蔽毒性の正確な同定を可能にする。
論文参考訳（メタデータ） (2026-02-03T08:54:25Z)
Toxicity in Online Platforms and AI Systems: A Survey of Needs, Challenges, Mitigations, and Future Directions [12.73085307172367]
デジタル通信システムの進化とオンラインプラットフォームの設計は、必然的に有害な行動の潜在意識の伝播を促進してきた。この調査は、様々な観点から毒性の包括的分類を創出しようと試みている。人工知能時代において社会が直面する状況と環境を理解することによって、毒性を説明するための全体論的アプローチを示す。
論文参考訳（メタデータ） (2025-09-29T21:55:23Z)
"Harmless to You, Hurtful to Me!": Investigating the Detection of Toxic Languages Grounded in the Perspective of Youth [20.613877650469647]
青少年特有の毒性、すなわち、大人によって非毒性とみなされる言語について検討するが、若年者は有害である。以上の結果から,これらに対する若者の認識は,いくつかの文脈要因と関連していると考えられる。若年者中心の毒性検出に関する今後の研究について,いくつかの知見を提示する。
論文参考訳（メタデータ） (2025-08-04T06:05:36Z)
Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings [48.841514684592426]
我々は、有害な中国語検出に言語モデルをデプロイする上で重要な課題として、中国語のマルチモーダル性を強調した。まず,3つの摂動戦略の分類法と,有毒な中国コンテンツに対する8つの具体的なアプローチを提案する。そして、この分類に基づいてデータセットをキュレートし、9つのSOTA LLM(米国と中国)をベンチマークして、乱れた有毒な漢文を検出できるかどうかを評価する。
論文参考訳（メタデータ） (2025-05-30T08:32:45Z)
Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection [1.9424018922013224]
ほとんどの毒性検出モデルは、毒性を本質的なテキストの性質として扱い、その影響を形作る上での文脈の役割を見越す。我々は毒性を社会的に創発的なストレス信号として再認識する。本稿では, 毒性検出のための新しいフレームワークについて紹介し, 公式な定義と基準, 新たなデータセットに対するアプローチの検証を行った。
論文参考訳（メタデータ） (2025-03-20T12:09:01Z)
Multilingual and Explainable Text Detoxification with Parallel Corpora [58.83211571400692]
並列テキストデトックス化コーパスを新しい言語に拡張する。本研究は, 有毒な文と非有毒な文の両方の記述的特徴について, 自動的, 説明可能な分析を行う。そこで我々は,Chain-of-Thoughts推論手法に触発された新しいテキスト解毒法を実験した。
論文参考訳（メタデータ） (2024-12-16T12:08:59Z)
FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。 LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文参考訳（メタデータ） (2024-06-25T14:02:11Z)
Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。 2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文参考訳（メタデータ） (2024-04-09T22:56:05Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。創作作業のプロンプトは有害な反応を引き起こす確率が 2倍になる初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文参考訳（メタデータ） (2023-11-03T14:37:53Z)
Facilitating Fine-grained Detection of Chinese Toxic Language: Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。ポストの毒性を検出するために語彙的知識を導入することが重要である。本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文参考訳（メタデータ） (2023-05-08T03:50:38Z)
Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文参考訳（メタデータ） (2021-11-19T13:57:26Z)
Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文参考訳（メタデータ） (2021-11-15T18:58:20Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)
Using Sentiment Information for Preemptive Detection of Toxic Comments in Online Conversations [0.0]
一部の著者は、最初の数つのメッセージの特徴を使って会話が有害な状態に陥るかどうかを予測しようとした。会話の最初のメッセージで表される感情が、今後の毒性を予測するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-06-17T20:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Understanding Toxicity Triggers on Reddit in the Context of Singapore

関連論文リスト