論文の概要: An Evaluation of Chat Safety Moderations in Roblox
- arxiv url: http://arxiv.org/abs/2605.04491v2
- Date: Thu, 07 May 2026 18:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.836536
- Title: An Evaluation of Chat Safety Moderations in Roblox
- Title(参考訳): ロブロックスにおけるチャットの安全性評価
- Authors: Priya Kaushik, Sonja Brown, Rakibul Hasan, Sazzadur Rahaman,
- Abstract要約: 複数の年齢層で4つのゲームから約200万のチャットメッセージを収集しました。
我々の発見は、未成年者の手入れ、セクシュアライゼーションに関連する、安全でないチャットメッセージの多数の事例という、厄介な現実を明らかにした。
- 参考スコア(独自算出の注目度): 6.121106657637349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Roblox is among the most popular online gaming platforms, used by hundreds of millions of users every day. A substantial portion of these users are underage, who are at a greater risk, where abusive users may utilize Roblox's real-time chat interface to make the initial contact with potential victims. Roblox employs automated chat moderation mechanisms to detect potentially abusive messages; however, to date, their effectiveness has not been independently investigated. Toward this goal, we collected approximately 2 million chat messages from four games across multiple age groups and analyzed them to evaluate the moderation system. These messages were collected from public game servers following ethical and legal norms as well as Roblox's terms of service. We use this corpus to qualitatively study which types of unsafe chats escape the moderation system and how policy-violating users evade the moderation system. Given the dataset's scale, it is prohibitively expensive to conduct qualitative content analysis manually. Therefore, we adopt a two-step approach. First, we manually labeled safe and unsafe messages (n=99.8K) and used them as a ground truth to evaluate four locally hosted state-of-the-art large language models (LLMs). Next, the best-performing LLM was applied to the entire corpus to identify potentially unsafe messages, which we manually categorized using iterative open and axial coding methods until thematic saturation was reached. Overall, our findings reveal a troublesome reality: numerous instances of unsafe chat messages related to grooming, sexualizing minors, bullying, & harassment, violence, self-harm, and sharing sensitive information, etc., escaped the current moderation. Our analysis of users whose messages were previously flagged revealed that they continue to send harmful messages by employing a wide range of techniques to evade the moderation system.
- Abstract(参考訳): Robloxは最も人気のあるオンラインゲームプラットフォームの一つで、毎日数億人のユーザーが使っている。
これらのユーザの大部分は未成年者であり、暴力的なユーザはRobloxのリアルタイムチャットインターフェースを使って、潜在的な犠牲者と最初の接触をすることができる。
Robloxは、潜在的に虐待的なメッセージを検出するために自動化されたチャットモデレーション機構を採用しているが、これまでは、その効果は独立して研究されていない。
この目標に向けて,複数の年齢層にまたがる4つのゲームから約200万件のチャットメッセージを収集し,モデレーションシステムの評価を行った。
これらのメッセージは、倫理的および法的規範とロブロックスのサービス規約に従って、公開ゲームサーバーから収集された。
我々はこのコーパスを用いて、どの種類の安全でないチャットがモデレーションシステムから逃れるか、そしてポリシー違反ユーザーがモデレーションシステムからどのように逃れるかを質的に研究する。
データセットのスケールを考えると、定性的なコンテンツ分析を手作業で行うのは極めて高価である。
したがって、我々は2段階のアプローチを採用する。
まず、安全で安全でないメッセージ(n=99.8K)を手動でラベル付けし、4つのローカルにホストされた最先端の大規模言語モデル(LLM)を評価するための基礎的真実として使用しました。
次に, 最適性能のLSMを全コーパスに適用し, セマンティック飽和に到達するまで, 反復的開軸符号化法を用いて手作業で分類した。
全体としては、未成年者、いじめ、ハラスメント、暴力、自傷行為、機密情報の共有など、多くの安全でないチャットメッセージが、現在のモデレーションから逃れた。
メッセージが事前にフラグ付けされていたユーザを分析した結果,モデレーションシステムを回避するため,幅広い手法を用いて有害メッセージを送信し続けていることが明らかとなった。
関連論文リスト
- Characterizing Delusional Spirals through Human-LLM Chat Logs [25.098985786805557]
大言語モデル(LLMs)は、妄想、自傷、AI精神病などの否定的な心理的影響の逸話的報告を乱し、増殖してきた」。
ユーザーとチャットボットが長い妄想の渦巻の中でどのように相互作用するか、まだ不明です」
本報告では,このような高頻度かつ極めて有害な症例の詳細な研究について紹介する。
論文 参考訳(メタデータ) (2026-03-17T14:24:32Z) - Large-scale online deanonymization with LLMs [58.46277616551135]
大規模なデ匿名化を実現するために,大規模言語モデルを用いることができることを示す。
当社のエージェントは、完全なインターネットアクセスによって、Hacker NewsユーザーとHistropic Interviewer参加者を高精度に識別することができる。
論文 参考訳(メタデータ) (2026-02-18T19:02:50Z) - RICoTA: Red-teaming of In-the-wild Conversation with Test Attempts [6.0385743836962025]
RICoTAは、大言語モデル(LLM)に挑戦する609のプロンプトで構成される、韓国のレッドチームデータセットである。
われわれは、韓国のRedditのようなコミュニティに自己投稿されたユーザー・チャットボットの会話を活用している。
データセットはGitHubから公開されます。
論文 参考訳(メタデータ) (2025-01-29T15:32:27Z) - Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。
攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。
私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文 参考訳(メタデータ) (2025-01-13T17:12:38Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - Toxicity in ChatGPT: Analyzing Persona-assigned Language Models [23.53559226972413]
大規模言語モデル(LLM)は驚くべき能力を示し、自然言語処理(NLP)コミュニティを超越した。
一般的な対話型LLMであるChatGPTの50万世代以上で毒性を系統的に評価した。
その結果,ChatGPTのシステムパラメータをペルソナに割り当てることで,世代間の毒性が著しく向上することが判明した。
論文 参考訳(メタデータ) (2023-04-11T16:53:54Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots [24.84440998820146]
本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (2022-09-07T20:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。