論文の概要: AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety
- arxiv url: http://arxiv.org/abs/2606.04867v1
- Date: Wed, 03 Jun 2026 13:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.780774
- Title: AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety
- Title(参考訳): AICompanionBench: AIコンパニオン安全性のためのLLM-as-Judgeのベンチマーク
- Authors: Yanjing Ren, Reza Ebrahimi, TengTeng Ma,
- Abstract要約: この研究はAICompanionBenchを紹介し、人間とAIの会話に詳細な安全性リスクが付与された最初の公開ベンチマークデータセットについて紹介する。
このデータセットには、Redditから収集された2123の現実世界のReplika会話が含まれており、性的行動、反社会的行動、身体的攻撃、口頭攻撃、薬物乱用、自傷と自殺、コントロール、操作、ノーハームの9つのカテゴリで人間とAIのコラボレーションを通じて注釈付けされている。
- 参考スコア(独自算出の注目度): 3.5092955099876266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI companion platforms such as Replika and Character.AI rapidly grow, concerns about unsafe human-AI interactions have intensified. This study introduces AICompanionBench, to our knowledge the first publicly available benchmark dataset of human-AI companion conversations annotated with fine-grained safety risk categories. The dataset contains 2,123 real-world Replika conversations collected from Reddit and annotated through human-AI collaboration across nine categories: sexual behavior, antisocial behavior, physical aggression, verbal aggression, substance abuse, self-harm and suicide, control, manipulation, and no-harm. Using this benchmark, we evaluate 20 state-of-the-art open-source and closed-source LLMs under an LLM-as-judge framework for detecting unsafe interactions. Results show substantial variation in model performance, with stronger models achieving high overall accuracy but still struggling with nuanced categories such as manipulation, as well as benign conversations that are incorrectly identified as harmful. Our findings suggest that while current LLMs can effectively detect explicit harmful content, they remain limited in identifying implicit unsafe interactions. Overall, our work contributes a new benchmark dataset for AI companionship safety research and offers insights into monitoring AI companion systems using LLMs. The dataset is publicly available at: https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx
- Abstract(参考訳): Replikaや Character.AIのようなAIコンパニオンプラットフォームが急速に成長するにつれ、安全でない人間とAIのインタラクションに対する懸念が高まっている。
この研究はAICompanionBenchを紹介し、人間とAIの会話に詳細な安全リスクカテゴリを付加した最初の公開ベンチマークデータセットについて紹介する。
このデータセットにはRedditから収集された2,123件の現実世界のReplika会話が含まれており、性的行動、反社会的行動、身体的攻撃、口頭攻撃、薬物乱用、自傷と自殺、コントロール、操作、ノーハームの9つのカテゴリで人間とAIのコラボレーションを通じて注釈付けされている。
このベンチマークを用いて、安全でないインタラクションを検出するLLM-as-judgeフレームワークを用いて、最先端のオープンソースとクローズドソースのLLMを20個評価する。
その結果、モデル性能のかなりの変化が示され、より強力なモデルにより、全体的な精度は向上するが、操作などの微妙なカテゴリーに苦しむとともに、不正に有害と認識される良質な会話にも苦しむことが判明した。
以上の結果から,現在のLSMは,有意な有害な内容の検出を効果的に行うことができるが,暗黙の安全でない相互作用の特定には限界があることが示唆された。
全体として、我々の研究はAIコンパニオン安全性研究のための新しいベンチマークデータセットに貢献し、LLMを用いたAIコンパニオンシステムの監視に関する洞察を提供する。
データセットは、https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsxで公開されている。
関連論文リスト
- CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Modeling Human Responses to Multimodal AI Content [10.65875439980452]
MhAIMデータセットには154,552のオンラインポストが含まれている(うち111,153がAI生成)
私たちの人間による研究は、投稿にテキストとビジュアルの両方が含まれている場合、人々はAIコンテンツを特定するのがより優れていることを示している。
マルチモーダル情報に予測応答を組み込むことにより,ユーザの問い合わせに応答するエージェントシステムであるT-Lensを提案する。
論文 参考訳(メタデータ) (2025-08-14T15:55:19Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions [8.018569128518187]
子ども(7~12歳)と青年(13~17歳)の2つの発達段階において,AIの安全性を評価するためのベンチマークとデータセットであるSafe-Child-LLMを紹介した。
我々のフレームワークは、赤チームコーパスからキュレートされた200の敵のプロンプトからなる新しい多部データセットと、ジェイルブレイク成功のための人名ラベルと、標準化された0-5の倫理的拒絶尺度を含む。
ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistralを含む主要なLCMを評価することで、子供向けシナリオにおける重大な安全性の欠陥が明らかになった。
論文 参考訳(メタデータ) (2025-06-16T14:04:54Z) - ChatBench: From Static Benchmarks to Human-AI Evaluation [12.625918658040636]
我々は,MMLU質問をユーザAI会話に変換するためのユーザスタディを設計し,実施する。
AIのみの精度は、ユーザAIの精度を予測するのに失敗する。
ユーザ-AIの会話を分析し、AI-aloneベンチマークからどのように分岐するかを洞察する。
論文 参考訳(メタデータ) (2025-03-22T01:21:40Z) - Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。
文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。
本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文 参考訳(メタデータ) (2024-10-02T14:47:05Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [95.49509269498367]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。