論文の概要: Evaluating the Effectiveness of OpenAI's Parental Control System
- arxiv url: http://arxiv.org/abs/2601.23062v1
- Date: Fri, 30 Jan 2026 15:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.518546
- Title: Evaluating the Effectiveness of OpenAI's Parental Control System
- Title(参考訳): OpenAIの親制御システムの有効性評価
- Authors: Kerem Ersoz, Saleh Afroogh, David Atkinson, Junfeng Jiao,
- Abstract要約: 未成年者が使用するメインストリームの会話アシスタントにおいて,プラットフォームレベルのペアレンタルコントロールがいかに効果的かを評価する。
我々は、身体的危害、ポルノグラフィー、プライバシー侵害、健康相談、詐欺、ヘイトスピーチ、マルウェアの7つの危険領域に焦点を当てています。
通知は包括的ではなく選択的であることがわかった。
- 参考スコア(独自算出の注目度): 1.6961535626222226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate how effectively platform-level parental controls moderate a mainstream conversational assistant used by minors. Our two-phase protocol first builds a category-balanced conversation corpus via PAIR-style iterative prompt refinement over API, then has trained human agents replay/refine those prompts in the consumer UI using a designated child account while monitoring the linked parent inbox for alerts. We focus on seven risk areas -- physical harm, pornography, privacy violence, health consultation, fraud, hate speech, and malware and quantify four outcomes: Notification Rate (NR), Leak-Through (LR), Overblocking (OBR), and UI Intervention Rate (UIR). Using an automated judge (with targeted human audit) and comparing the current backend to legacy variants (GPT-4.1/4o), we find that notifications are selective rather than comprehensive: privacy violence, fraud, hate speech, and malware triggered no parental alerts in our runs, whereas physical harm (highest), pornography, and some health queries produced intermittent alerts. The current backend shows lower leak-through than legacy models, yet overblocking of benign, educational queries near sensitive topics remains common and is not surfaced to parents, revealing a policy-product gap between on-screen safeguards and parent-facing telemetry. We propose actionable fixes: broaden/configure the notification taxonomy, couple visible safeguards to privacy-preserving parent summaries, and prefer calibrated, age-appropriate safe rewrites over blanket refusals.
- Abstract(参考訳): 未成年者が使用するメインストリームの会話アシスタントにおいて,プラットフォームレベルのペアレンタルコントロールがいかに効果的かを評価する。
当社の2フェーズプロトコルは、まず、PAIRスタイルの反復的プロンプト改善を通じてカテゴリバランスの取れた会話コーパスを構築し、その後、警告のためにリンクされた親の受信箱を監視しながら、指定された子アカウントを使用して、コンシューマUIでそれらのプロンプトを再生/再定義する訓練を施しました。
我々は、身体的危害、ポルノグラフィー、プライバシー侵害、健康相談、詐欺、ヘイトスピーチ、マルウェアの7つの危険領域に注目し、通知率(NR)、リークスルー(LR)、オーバーブロッキング(OBR)、UI介入率(UIR)の4つの結果を定量化する。
プライバシーの暴力、不正行為、ヘイトスピーチ、マルウェアは私たちの実行中に親の警告を発生させることなく、物理的被害(最高級)、ポルノグラフィ、一部の健康クエリは断続的な警告を発生させる。
現在のバックエンドは、レガシーモデルよりもリークスルーが低いが、良心的な、センシティブなトピックに近い教育的なクエリのオーバーブロックは依然として一般的であり、親には表面化されず、オンスクリーンのセーフガードと親向けテレメトリの間のポリシーとプロプライエタリのギャップが明らかになっている。
通知分類を拡大/設定し、プライバシを保存する親のサマリーに対する可視的保護と、ブランケットの拒絶よりも校正され、年齢に合った安全なリライトを優先する。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Predictive Response Optimization: Using Reinforcement Learning to Fight Online Social Network Abuse [8.156427899556252]
我々は、以前の研究で述べられた検出はOSNの乱用と戦っている人々の目標ではないと論じている。
むしろ、虐待による害と良質なユーザーへの影響のトレードオフを最適化する行動を選択することが目的だと信じています。
論文 参考訳(メタデータ) (2025-02-24T22:30:14Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation [26.443929802292807]
CensorChatは、NSFW対話検出を目的とした対話監視データセットである。
このデータセットは、NSFWコンテンツ検出器を構築するための費用効率の良い手段を提供する。
提案手法は,NSFWコンテンツ検出の進歩だけでなく,AI駆動対話におけるユーザ保護ニーズの進展とも一致している。
論文 参考訳(メタデータ) (2023-09-18T13:24:44Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。
自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。
本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T02:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。