論文の概要: From Prompt Risk to Response Risk: Paired Analysis of Safety Behavior of Large Language Model
- arxiv url: http://arxiv.org/abs/2604.26052v2
- Date: Mon, 04 May 2026 21:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.124131
- Title: From Prompt Risk to Response Risk: Paired Analysis of Safety Behavior of Large Language Model
- Title(参考訳): プロンプトリスクから反応リスクへ:大規模言語モデルの安全行動のペア分析
- Authors: Mengya Hu, Qiong Wei, Sandeep Atluri,
- Abstract要約: そこで本研究では,4つの有害カテゴリーにまたがるラベルを用いた1250件の即時応答レコードについて,ペア・トランジションに基づく解析を行った。
61%の反応がプロンプトに対して脱エスカレートし, 36%が同じ重症度を維持し, 3%がエカレートした。
カテゴリーごとのパーシステンス/ドリフトアップ分解では、セクシャル内容は、ヘイトやヴィオレンスよりもデエスカレートが難しい3倍と同定される。
- 参考スコア(独自算出の注目度): 0.6657531237305416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety evaluations of large language models (LLMs) typically report binary outcomes such as attack success rate, refusal rate, or harmful/not-harmful response classification. While useful, these can hide how risk changes between a user's input and the model's response. We present a paired, transition-based analysis over 1250 prompt-response records with human-provided labels over four harm categories (Hate, Sexual, Violence, Self-harm) and ordinal severity levels aligned with the Azure AI Content Safety taxonomy. 61% of responses de-escalate harm relative to the prompt, 36% preserve the same severity, and 3% escalate to higher harm. A per-category persistence/drift-up decomposition identifies Sexual content as 3x harder to de-escalate than Hate or Violence, driven by persistence on already-sexual prompts, not by newly introducing sexual harm from benign inputs. Jointly measuring response relevance reveals an empirical signature of the helpfulness-harmlessness tradeoff: all compliance-escalation cases (from non-zero prompts) are relevance-3 (high-quality, on-task content at elevated severity), while medium-severity responses show the lowest relevance (64%), driven by tangential elaborations in Violence and Sexual categories.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性評価では、攻撃成功率、拒絶率、有害で有害な応答分類などのバイナリ結果が報告されるのが一般的である。
有用ではあるが、これらはユーザの入力とモデルの応答の間のリスクの変化を隠蔽することができる。
本報告では、Hate、Sexual、Violence、Self-harm)とAzure AI Content Safetyの4つの有害カテゴリ(Hate、Sexual、Violence、Self-harm)の4つのラベルを用いた、1250件の即時応答レコードに関するペア・トランジションベースの分析を行った。
61%の反応がプロンプトに対して脱エスカレートし, 36%が同じ重症度を維持し, 3%がエカレートした。
カテゴリーごとのパーシステンス/ドリフトアップ分解では、性的な内容は、良心的な入力から新たに性的危害を導入するのではなく、すでに性的なプロンプトに対する永続性によって引き起こされる、ヘイトやヴィオレンスよりも3倍の脱エスカレートが難しいと特定される。
非ゼロプロンプトからの)コンプライアンス・エスカレーションのすべてのケースは、関連度3(高品質で、高重度でのオンタスクのコンテンツ)であり、中重度応答は、ビオレンスとセクシャルカテゴリーの接尾辞によって引き起こされる最も低い関連度(64%)を示す。
関連論文リスト
- The Company You Keep: How LLMs Respond to Dark Triad Traits [7.65192155348112]
大規模言語モデル(LLM)は、しばしば、AI-sycophancy(英語版)としても知られる、非常に同意しやすく、会話スタイルを補強する。
本研究は, 学習データセットを用いて, ダークトライアドの特徴(マキアベリア主義, ナルシシズム, サイコパシー)を表現したユーザプロンプトにLLMがどう反応するかを検討する。
本研究は, ユーザが有害な要求に対して意識的にエスカレートした場合に, 適切な応答と検出が可能な, 安全な会話システムを設計する上での意義を示唆するものである。
論文 参考訳(メタデータ) (2026-03-04T17:19:22Z) - FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation [28.110568600225147]
FINESTは、感性トピックのためのFINE粒度対応評価分類である。
有用性と無害性は、コンテンツ、論理、適切性という3つの主要なカテゴリにまたがるエラーに分解される。
韓国の感応性質問データセットの実験では、FINESTによってガイドされたスコアとエラーに基づく改善パイプラインが、モデル応答を大幅に改善することを示した。
論文 参考訳(メタデータ) (2026-03-04T14:41:54Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments [4.547649832854566]
大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-16T15:16:33Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - Towards Harmful Erotic Content Detection through Coreference-Driven
Contextual Analysis [0.0]
本稿では,エロティックコンテンツ中の有害な文脈的手がかりを特定するための,ニューラルネットワークとルールベースのコンテキスト認識システムを提案する。
ポーランド語テキストでテストした本モデルでは,84%の有望な精度と80%のリコールが得られた。
論文 参考訳(メタデータ) (2023-10-22T15:19:04Z) - SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable
Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。
データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文 参考訳(メタデータ) (2023-05-28T11:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。