論文の概要: Quantifying Risks in Multi-turn Conversation with Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03969v1
- Date: Sat, 04 Oct 2025 23:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.363473
- Title: Quantifying Risks in Multi-turn Conversation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたマルチターン会話におけるリスクの定量化
- Authors: Chengxiao Wang, Isha Chaudhary, Qian Hu, Weitong Ruan, Rahul Gupta, Gagandeep Singh,
- Abstract要約: 大規模言語モデル(LLM)は、公衆の安全とセキュリティに重大なリスクをもたらす会話設定で破滅的な応答を生成することができる。
LLMのマルチターン会話における破滅的リスクに対する原則的認定フレームワークであるQRLLMを提案する。
- 参考スコア(独自算出の注目度): 19.530181302068232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) can produce catastrophic responses in conversational settings that pose serious risks to public safety and security. Existing evaluations often fail to fully reveal these vulnerabilities because they rely on fixed attack prompt sequences, lack statistical guarantees, and do not scale to the vast space of multi-turn conversations. In this work, we propose QRLLM, a novel, principled Certification framework for Catastrophic risks in multi-turn Conversation for LLMs that bounds the probability of an LLM generating catastrophic responses under multi-turn conversation distributions with statistical guarantees. We model multi-turn conversations as probability distributions over query sequences, represented by a Markov process on a query graph whose edges encode semantic similarity to capture realistic conversational flow, and quantify catastrophic risks using confidence intervals. We define several inexpensive and practical distributions: random node, graph path, adaptive with rejection. Our results demonstrate that these distributions can reveal substantial catastrophic risks in frontier models, with certified lower bounds as high as 70\% for the worst model, highlighting the urgent need for improved safety training strategies in frontier LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、公衆の安全とセキュリティに重大なリスクをもたらす会話設定で破滅的な応答を生成することができる。
既存の評価では、固定された攻撃プロンプトシーケンスに依存し、統計的保証が欠如し、マルチターン会話の広大な領域にスケールしないため、これらの脆弱性を十分に明らかにできないことが多い。
本研究では,LLMにおける多ターン会話における破滅的リスクに対する,統計的保証のある多ターン会話分布下で破滅的応答を発生させる確率を制限した,多ターン会話における破滅的リスクに対する,新しい原則的認証フレームワークであるQRLLMを提案する。
我々は,マルチターン会話をクエリシーケンス上の確率分布としてモデル化し,エッジが意味論的類似性を符号化したクエリグラフ上でマルコフプロセスで表現し,信頼区間を用いた破滅的リスクの定量化を行う。
我々は、ランダムノード、グラフパス、拒絶に適応したいくつかの安価で実用的な分布を定義する。
以上の結果から,これらの分布はフロンティアモデルにおいて重大な破滅的なリスクを生じさせる可能性が示唆され,フロンティアLLMにおける安全訓練戦略の改善が急務であることが示唆された。
関連論文リスト
- Exploring the Secondary Risks of Large Language Models [26.00748215572094]
良心的衝動時の有害または誤解を招く行動に特徴付けられる二次的リスクを導入する。
敵の攻撃とは異なり、これらのリスクは不完全な一般化から生じ、しばしば標準的な安全メカニズムを回避する。
本研究では,ブラックボックス型多目的検索フレームワークSecLensを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:31:52Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary [28.247658612894668]
RASSは、安全境界付近で過度に拒絶するプロンプトを戦略的にターゲットとする、プロンプト生成と選択のための自動化されたフレームワークである。
RASSは、境界に沿ったプロンプトを効果的に識別し、キュレートし、オーバーリフレクションのより効果的でターゲットを絞った緩和を可能にする。
論文 参考訳(メタデータ) (2025-05-23T19:30:49Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - Prompt Risk Control: A Rigorous Framework for Responsible Deployment of Large Language Models [14.457388258269697]
本稿では,情報的リスク対策の家族に対する厳密な上限に基づくプロンプト選択のためのフレームワークであるPrompt Risk Controlを提案する。
最悪の応答を測定する量を含む、さまざまなメトリクスセットのバウンダリを生成する方法を提供しています。
オープンエンドチャット、医療質問の要約、コード生成といったアプリケーションの実験では、このようなフレームワークが責任あるデプロイメントを促進する方法が強調されている。
論文 参考訳(メタデータ) (2023-11-22T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。