論文の概要: Benchmarking and Understanding Safety Risks in AI Character Platforms
- arxiv url: http://arxiv.org/abs/2512.01247v1
- Date: Mon, 01 Dec 2025 03:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.673265
- Title: Benchmarking and Understanding Safety Risks in AI Character Platforms
- Title(参考訳): AI文字プラットフォームにおける安全性リスクのベンチマークと理解
- Authors: Yiluo Wei, Peixian Zhang, Gareth Tyson,
- Abstract要約: 我々は、AIキャラクタプラットフォームの最初の大規模安全研究を行い、16の人気のあるプラットフォームを評価した。
AI文字プラットフォームは、平均して65.1%の安全でない応答率を示す。
安全性のパフォーマンスはキャラクターによって大きく異なり、人口動態や性格といった特徴と強く相関している。
- 参考スコア(独自算出の注目度): 11.843617869526405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI character platforms, which allow users to engage in conversations with AI personas, are a rapidly growing application domain. However, their immersive and personalized nature, combined with technical vulnerabilities, raises significant safety concerns. Despite their popularity, a systematic evaluation of their safety has been notably absent. To address this gap, we conduct the first large-scale safety study of AI character platforms, evaluating 16 popular platforms using a benchmark set of 5,000 questions across 16 safety categories. Our findings reveal a critical safety deficit: AI character platforms exhibit an average unsafe response rate of 65.1%, substantially higher than the 17.7% average rate of the baselines. We further discover that safety performance varies significantly across different characters and is strongly correlated with character features such as demographics and personality. Leveraging these insights, we demonstrate that our machine learning model is able identify less safe characters with an F1-score of 0.81. This predictive capability can be beneficial for platforms, enabling improved mechanisms for safer interactions, character search/recommendations, and character creation. Overall, the results and findings offer valuable insights for enhancing platform governance and content moderation for safer AI character platforms.
- Abstract(参考訳): AIペルソナとの対話を可能にするAIキャラクタプラットフォームは、急速に成長するアプリケーションドメインである。
しかし、没入的でパーソナライズされた性質と技術的な脆弱性が組み合わさって、重大な安全上の懸念が生じる。
その人気にもかかわらず、その安全性の体系的な評価は特に欠落している。
このギャップに対処するため、私たちは16の安全カテゴリにわたる5000の質問のベンチマークセットを使用して16の人気のあるプラットフォームを評価し、AIキャラクタプラットフォームに関する最初の大規模な安全性調査を行います。
AIキャラクタプラットフォームの平均不安全レスポンス率は65.1%であり、ベースラインの平均レート17.7%よりもかなり高い。
さらに,安全性能は文字によって大きく異なり,人口動態や性格といった特徴と強く相関していることが明らかとなった。
これらの知見を活用することで、我々の機械学習モデルが安全性の低い文字を0.81のF1スコアで識別できることを示した。
この予測機能は、より安全なインタラクション、文字検索/レコメンデーション、文字生成のための改善されたメカニズムを可能にするプラットフォームに有用である。
全体的な結果と結果は、より安全なAIキャラクタプラットフォームのためのプラットフォームガバナンスとコンテンツモデレーションを強化する上で、貴重な洞察を提供する。
関連論文リスト
- Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [31.925448597093407]
大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文 参考訳(メタデータ) (2025-05-24T21:37:10Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。