論文の概要: Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
- arxiv url: http://arxiv.org/abs/2505.18882v2
- Date: Thu, 29 May 2025 23:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.082103
- Title: Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
- Title(参考訳): LLMにおけるパーソナライズドセーフ: ベンチマークと計画に基づくエージェントアプローチ
- Authors: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang,
- Abstract要約: 大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
- 参考スコア(独自算出の注目度): 17.5700128005813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) typically generate identical or similar responses for all users given the same prompt, posing serious safety risks in high-stakes applications where user vulnerabilities differ widely. Existing safety evaluations primarily rely on context-independent metrics - such as factuality, bias, or toxicity - overlooking the fact that the same response may carry divergent risks depending on the user's background or condition. We introduce personalized safety to fill this gap and present PENGUIN - a benchmark comprising 14,000 scenarios across seven sensitive domains with both context-rich and context-free variants. Evaluating six leading LLMs, we demonstrate that personalized user information significantly improves safety scores by 43.2%, confirming the effectiveness of personalization in safety alignment. However, not all context attributes contribute equally to safety enhancement. To address this, we develop RAISE - a training-free, two-stage agent framework that strategically acquires user-specific background. RAISE improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining a low interaction cost of just 2.7 user queries on average. Our findings highlight the importance of selective information gathering in safety-critical domains and offer a practical solution for personalizing LLM responses without model retraining. This work establishes a foundation for safety research that adapts to individual user contexts rather than assuming a universal harm standard.
- Abstract(参考訳): 大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して同一または類似の応答を生成する。
既存の安全性評価は、主にコンテキストに依存しないメトリクス(事実性、偏見、毒性など)に依存している。
我々は、このギャップを埋めるためにパーソナライズされた安全性を導入し、PENGUINを提示する。
6つの主要なLCMを評価することで、パーソナライズされたユーザ情報が安全性スコアを43.2%向上させ、安全性アライメントにおけるパーソナライズの有効性を確認した。
しかし、すべての文脈属性が安全向上に等しく寄与するわけではない。
そこで本研究では,ユーザ固有のバックグラウンドを戦略的に取得する,トレーニングフリーで2段階のエージェントフレームワークであるRAISEを開発する。
RAISEは6つのバニラLLMに対して最大31.6%の安全性向上を実現している。
本研究は, 安全クリティカル領域における選択的情報収集の重要性を強調し, モデル再構成を伴わずに LLM 応答をパーソナライズするための実用的なソリューションを提供する。
この研究は、普遍的な調和標準を仮定するのではなく、個々のユーザコンテキストに適応する安全研究の基盤を確立する。
関連論文リスト
- Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models [26.667869862556973]
LLM安全性のユーザ固有の側面を評価する最初のベンチマークであるU-SAFEBENCHを紹介する。
LLMを広く使用した18種類のLCMを評価した結果,ユーザ固有の安全基準を考慮すると,現在のLCMは安全に動作しないことがわかった。
本稿では,チェーン・オブ・思想に基づく簡単な治療法を提案し,ユーザ固有の安全性向上に有効であることを示す。
論文 参考訳(メタデータ) (2025-02-20T22:58:44Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - R-Judge: Benchmarking Safety Risk Awareness for LLM Agents [28.0550468465181]
大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全性のリスクを判定・同定する上で,LLMの熟練度を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-01-18T14:40:46Z) - A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。