論文の概要: LLM Safety for Children
- arxiv url: http://arxiv.org/abs/2502.12552v1
- Date: Tue, 18 Feb 2025 05:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:07.363448
- Title: LLM Safety for Children
- Title(参考訳): 小児のLSM安全性
- Authors: Prasanjit Rath, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat,
- Abstract要約: この研究は、標準的な安全評価によって見落とされがちな子供の多様性を認めている。
本研究は,児童医療・心理学における文献による児童の個人性や興味の多様性を反映した児童ユーザモデルを開発する。
- 参考スコア(独自算出の注目度): 9.935219917903858
- License:
- Abstract: This paper analyzes the safety of Large Language Models (LLMs) in interactions with children below age of 18 years. Despite the transformative applications of LLMs in various aspects of children's lives such as education and therapy, there remains a significant gap in understanding and mitigating potential content harms specific to this demographic. The study acknowledges the diverse nature of children often overlooked by standard safety evaluations and proposes a comprehensive approach to evaluating LLM safety specifically for children. We list down potential risks that children may encounter when using LLM powered applications. Additionally we develop Child User Models that reflect the varied personalities and interests of children informed by literature in child care and psychology. These user models aim to bridge the existing gap in child safety literature across various fields. We utilize Child User Models to evaluate the safety of six state of the art LLMs. Our observations reveal significant safety gaps in LLMs particularly in categories harmful to children but not adults
- Abstract(参考訳): 本稿では,18歳未満の子どもとの対話におけるLarge Language Models(LLMs)の安全性について分析する。
教育やセラピーといった子どもの生活の様々な側面におけるLSMの転換的応用にもかかわらず、潜在的な内容の理解と緩和には大きなギャップが残っている。
この研究は、標準的な安全評価によって見落とされがちな子供の多様な性質を認め、特に子どもに対するLSMの安全性を評価するための包括的なアプローチを提案する。
LLMアプリケーションを使用する場合、子どもが遭遇する可能性のあるリスクをリストアップする。
また,児童ケアや心理学における文学的情報による子どもの個性や興味の多様性を反映した児童ユーザモデルも開発している。
これらのユーザモデルは、様々な分野における児童安全文学のギャップを埋めることを目的としている。
児童ユーザモデルを用いて、6つの最先端LCMの安全性を評価する。
我々の観察では、特に子供に有害であるが成人には及ばないカテゴリーにおけるLSMの安全性のギャップが顕著であることが示された。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。