論文の概要: Toxicity in Online Platforms and AI Systems: A Survey of Needs, Challenges, Mitigations, and Future Directions
- arxiv url: http://arxiv.org/abs/2509.25539v1
- Date: Mon, 29 Sep 2025 21:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.343583
- Title: Toxicity in Online Platforms and AI Systems: A Survey of Needs, Challenges, Mitigations, and Future Directions
- Title(参考訳): オンラインプラットフォームとAIシステムの毒性: ニーズ、課題、緩和、今後の方向性の調査
- Authors: Smita Khapre, Melkamu Abay Mersha, Hassan Shakil, Jonali Baruah, Jugal Kalita,
- Abstract要約: デジタル通信システムの進化とオンラインプラットフォームの設計は、必然的に有害な行動の潜在意識の伝播を促進してきた。
この調査は、様々な観点から毒性の包括的分類を創出しようと試みている。
人工知能時代において社会が直面する状況と環境を理解することによって、毒性を説明するための全体論的アプローチを示す。
- 参考スコア(独自算出の注目度): 12.73085307172367
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The evolution of digital communication systems and the designs of online platforms have inadvertently facilitated the subconscious propagation of toxic behavior. Giving rise to reactive responses to toxic behavior. Toxicity in online content and Artificial Intelligence Systems has become a serious challenge to individual and collective well-being around the world. It is more detrimental to society than we realize. Toxicity, expressed in language, image, and video, can be interpreted in various ways depending on the context of usage. Therefore, a comprehensive taxonomy is crucial to detect and mitigate toxicity in online content, Artificial Intelligence systems, and/or Large Language Models in a proactive manner. A comprehensive understanding of toxicity is likely to facilitate the design of practical solutions for toxicity detection and mitigation. The classification in published literature has focused on only a limited number of aspects of this very complex issue, with a pattern of reactive strategies in response to toxicity. This survey attempts to generate a comprehensive taxonomy of toxicity from various perspectives. It presents a holistic approach to explain the toxicity by understanding the context and environment that society is facing in the Artificial Intelligence era. This survey summarizes the toxicity-related datasets and research on toxicity detection and mitigation for Large Language Models, social media platforms, and other online platforms, detailing their attributes in textual mode, focused on the English language. Finally, we suggest the research gaps in toxicity mitigation based on datasets, mitigation strategies, Large Language Models, adaptability, explainability, and evaluation.
- Abstract(参考訳): デジタル通信システムの進化とオンラインプラットフォームの設計は、必然的に有害な行動の潜在意識の伝播を促進してきた。
有害な行動に対する反応を引き起こす。
オンラインコンテンツと人工知能システムの毒性は、世界中の個人と集団の健康にとって深刻な課題となっている。
私たちが認識しているよりも社会に有害である。
言語、画像、ビデオで表現される毒性は、使用状況に応じて様々な方法で解釈できる。
したがって、オンラインコンテンツ、人工知能システム、および/または大規模言語モデルにおける毒性を積極的に検出し、緩和するためには、包括的分類法が不可欠である。
毒性の包括的理解は、毒性の検出と緩和のための実用的なソリューションの設計を促進する可能性が高い。
刊行された文献の分類は、毒性に反応する反応性戦略のパターンを含む、この非常に複雑な問題の限られた側面のみに焦点を当てている。
この調査は、様々な観点から毒性の包括的分類を創出しようと試みている。
人工知能時代において社会が直面する状況と環境を理解することによって、毒性を説明するための全体論的アプローチを示す。
本調査では, 大規模言語モデル, ソーシャルメディアプラットフォーム, その他のオンラインプラットフォームを対象とした毒性関連データセットと毒性検出・緩和に関する研究を要約し, それらの属性をテキストモードで詳述し, 英語に焦点を当てた。
最後に、データセット、緩和戦略、大規模言語モデル、適応性、説明可能性、評価に基づく毒性軽減の研究ギャップについて提案する。
関連論文リスト
- Defining, Understanding, and Detecting Online Toxicity: Challenges and Machine Learning Approaches [4.1824815480811806]
本研究は,デジタルプラットフォーム上での各種有害コンテンツに関する140の出版物の合成について述べる。
データセットは32言語でコンテンツを含み、選挙、自然発生イベント、危機などのトピックをカバーしている。
本稿では,オンライン有害同意に関する新たな研究の提言とガイドライン,およびコンテンツモデレーションによる緩和について紹介する。
論文 参考訳(メタデータ) (2025-09-14T00:16:53Z) - Something Just Like TRuST : Toxicity Recognition of Span and Target [2.4169078025984825]
本稿では毒性検出の改善を目的とした包括的データセットであるTRuSTを紹介する。
我々は、毒性検出、標的群同定、有害スパン抽出について、最先端の大規模言語モデル(LLM)をベンチマークする。
微調整されたモデルは、特定のソーシャルグループではパフォーマンスが低いものの、ゼロショットや少数ショットのプロンプトを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-02T23:48:16Z) - GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection [1.9424018922013224]
ほとんどの毒性検出モデルは、毒性を本質的なテキストの性質として扱い、その影響を形作る上での文脈の役割を見越す。
我々は毒性を社会的に創発的なストレス信号として再認識する。
本稿では, 毒性検出のための新しいフレームワークについて紹介し, 公式な定義と基準, 新たなデータセットに対するアプローチの検証を行った。
論文 参考訳(メタデータ) (2025-03-20T12:09:01Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Handling Bias in Toxic Speech Detection: A Survey [26.176340438312376]
本稿では,有毒な音声検出におけるバイアスの評価と緩和手法について検討する。
ケーススタディでは、知識に基づくバイアス緩和によるバイアスシフトの概念を紹介している。
調査は、重要な課題、研究のギャップ、今後の方向性の概要で締めくくっている。
論文 参考訳(メタデータ) (2022-01-26T10:38:36Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。