論文の概要: Harm in AI-Driven Societies: An Audit of Toxicity Adoption on Chirper.ai
- arxiv url: http://arxiv.org/abs/2601.01090v1
- Date: Sat, 03 Jan 2026 06:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.023805
- Title: Harm in AI-Driven Societies: An Audit of Toxicity Adoption on Chirper.ai
- Title(参考訳): AI駆動社会におけるハーム:Chirper.aiにおける毒性導入の監査
- Authors: Erica Coppolillo, Luca Luceri, Emilio Ferrara,
- Abstract要約: 大規模言語モデル(LLM)は、オンライン社会エコシステムに参加する自律エージェントにますます組み込まれています。
完全AI駆動型ソーシャルプラットフォームであるChirper.aiにおけるLSM駆動型エージェントの毒性導入について検討した。
- 参考スコア(独自算出の注目度): 8.967224730909258
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly embedded in autonomous agents that participate in online social ecosystems, where interactions are sequential, cumulative, and only partially controlled. While prior work has documented the generation of toxic content by LLMs, far less is known about how exposure to harmful content shapes agent behavior over time, particularly in environments composed entirely of interacting AI agents. In this work, we study toxicity adoption of LLM-driven agents on Chirper.ai, a fully AI-driven social platform. Specifically, we model interactions in terms of stimuli (posts) and responses (comments), and by operationalizing exposure through observable interactions rather than inferred recommendation mechanisms. We conduct a large-scale empirical analysis of agent behavior, examining how response toxicity relates to stimulus toxicity, how repeated exposure affects the likelihood of toxic responses, and whether toxic behavior can be predicted from exposure alone. Our findings show that while toxic responses are more likely following toxic stimuli, a substantial fraction of toxicity emerges spontaneously, independent of exposure. At the same time, cumulative toxic exposure significantly increases the probability of toxic responding. We further introduce two influence metrics, the Influence-Driven Response Rate and the Spontaneous Response Rate, revealing a strong trade-off between induced and spontaneous toxicity. Finally, we show that the number of toxic stimuli alone enables accurate prediction of whether an agent will eventually produce toxic content. These results highlight exposure as a critical risk factor in the deployment of LLM agents and suggest that monitoring encountered content may provide a lightweight yet effective mechanism for auditing and mitigating harmful behavior in the wild.
- Abstract(参考訳): 大規模言語モデル(LLM)は、対話が逐次的で累積的で部分的に制御されているオンライン社会エコシステムに参加する自律エージェントに、ますます組み込まれています。
これまでの研究は、LSMによる有害なコンテンツの生成を文書化してきたが、有害なコンテンツへの曝露が時間の経過とともにエージェントの行動をどのように形作るかについては、特に完全に相互作用するAIエージェントで構成された環境では、あまり知られていない。
本研究では,完全AI駆動型ソーシャルプラットフォームであるChirper.ai上でのLSM駆動型エージェントの毒性導入について検討する。
具体的には、刺激(ポスト)と反応(記事)の観点で相互作用をモデル化し、推測された推奨メカニズムではなく、観測可能な相互作用を通して露光を操作することによって、相互作用をモデル化する。
反応毒性が刺激毒性にどのように関係するか、繰り返し曝露が毒性反応の可能性をどう影響するか、そして曝露単独で毒性挙動を予測できるかどうかを、エージェントの行動に関する大規模な実証分析を行った。
有毒な反応は毒性刺激の後に起こる可能性が高いが, 有毒な反応のかなりの部分が自然に出現し, 曝露に依存しないことが示唆された。
同時に、累積毒性曝露は毒性反応の確率を著しく高める。
さらに、影響駆動応答率と自発応答率という2つの影響指標を導入し、誘発毒性と自然毒性との強いトレードオフを明らかにした。
最後に、有害な刺激数だけで、最終的に有害な物質が生成されるかどうかを正確に予測できることを示す。
これらの結果は, LLMエージェントの展開において, 曝露が重要な危険因子であることを強調し, 遭遇したコンテンツのモニタリングは, 野生における有害な行動の監査と緩和のための軽量かつ効果的なメカニズムを提供する可能性があることを示唆している。
関連論文リスト
- GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。