論文の概要: ModelCitizens:Representing Community Voices in Online Safety
- arxiv url: http://arxiv.org/abs/2507.05455v1
- Date: Mon, 07 Jul 2025 20:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.333864
- Title: ModelCitizens:Representing Community Voices in Online Safety
- Title(参考訳): ModelCitizens:オンライン安全におけるコミュニティの声の表現
- Authors: Ashima Suvarna, Christina Chance, Hamid Palangi, Sophie Hao, Thomas Hartvigsen, Saadia Gabriel,
- Abstract要約: ソーシャルメディア投稿6.8Kと多様なアイデンティティグループにまたがる40K毒性アノテーションのデータセットであるMODELCITIZENSを紹介する。
本研究は,包括的コンテンツモデレーションのためのコミュニティインフォームドアノテーションとモデリングの重要性を強調した。
- 参考スコア(独自算出の注目度): 26.2853218904429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic toxic language detection is critical for creating safe, inclusive online spaces. However, it is a highly subjective task, with perceptions of toxic language shaped by community norms and lived experience. Existing toxicity detection models are typically trained on annotations that collapse diverse annotator perspectives into a single ground truth, erasing important context-specific notions of toxicity such as reclaimed language. To address this, we introduce MODELCITIZENS, a dataset of 6.8K social media posts and 40K toxicity annotations across diverse identity groups. To capture the role of conversational context on toxicity, typical of social media posts, we augment MODELCITIZENS posts with LLM-generated conversational scenarios. State-of-the-art toxicity detection tools (e.g. OpenAI Moderation API, GPT-o4-mini) underperform on MODELCITIZENS, with further degradation on context-augmented posts. Finally, we release LLAMACITIZEN-8B and GEMMACITIZEN-12B, LLaMA- and Gemma-based models finetuned on MODELCITIZENS, which outperform GPT-o4-mini by 5.5% on in-distribution evaluations. Our findings highlight the importance of community-informed annotation and modeling for inclusive content moderation.
- Abstract(参考訳): 安全で包括的なオンライン空間を作るには、自動有害言語検出が不可欠だ。
しかし、これは非常に主観的な課題であり、コミュニティの規範と生きた経験によって形作られた有害な言語に対する認識がある。
既存の毒性検出モデルは通常、様々なアノテータの視点を単一の根拠の真実に分解するアノテーションに基づいて訓練され、再生言語のような文脈固有の毒性の概念を消去する。
この問題を解決するために,さまざまなアイデンティティグループにまたがる6.8Kのソーシャルメディア投稿と40Kの毒性アノテーションのデータセットであるMODELCITIZENSを紹介した。
ソーシャルメディア投稿の典型である毒性における会話コンテキストの役割を捉えるために,LLM生成の会話シナリオを用いてMODELCITIZENSポストを増強する。
最先端の毒性検出ツール(例:OpenAI Moderation API, GPT-o4-mini)は、MODELCITIZENSでパフォーマンスが低下し、コンテキスト拡張された投稿がさらに劣化する。
最後に,LLAMACITIZEN-8B,GEMMACITIZEN-12B,LLaMA,Gemmaをベースとしたモデルをリリースし,GPT-o4-miniを5.5%上回った。
本研究は,包括的コンテンツモデレーションのためのコミュニティインフォームドアノテーションとモデリングの重要性を強調した。
関連論文リスト
- Something Just Like TRuST : Toxicity Recognition of Span and Target [2.4169078025984825]
本稿では毒性検出の改善を目的とした包括的データセットであるTRuSTを紹介する。
我々は、毒性検出、標的群同定、有害スパン抽出について、最先端の大規模言語モデル(LLM)をベンチマークする。
微調整されたモデルは、特定のソーシャルグループではパフォーマンスが低いものの、ゼロショットや少数ショットのプロンプトを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-02T23:48:16Z) - GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - RECAST: Enabling User Recourse and Interpretability of Toxicity
Detection Models with Interactive Visualization [16.35961310670002]
本稿では,有害モデルの予測を可視化するインタラクティブなオープンソースWebツールであるRECASTについて紹介する。
その結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。
このことは、毒性検出モデルがどのように機能し、機能するか、そしてそれらがオンライン談話の将来に与える影響について、議論を開いている。
論文 参考訳(メタデータ) (2021-02-08T18:37:50Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。