Fugu-MT 論文翻訳(概要): Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

論文の概要: Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

arxiv url: http://arxiv.org/abs/2402.17262v1
Date: Tue, 27 Feb 2024 07:11:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 17:21:14.969808
Title: Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue
Title（参考訳）: ターンアウト:多ターン対話における大規模言語モデルの安全性脆弱性
Authors: Zhenhong Zhou, Jiuyang Xiang, Haopeng Chen, Quan Liu, Zherui Li, Sen Su
Abstract要約: 大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
参考スコア（独自算出の注目度）: 10.703193963273128
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have been demonstrated to generate illegal or unethical responses, particularly when subjected to "jailbreak." Research on jailbreak has highlighted the safety issues of LLMs. However, prior studies have predominantly focused on single-turn dialogue, ignoring the potential complexities and risks presented by multi-turn dialogue, a crucial mode through which humans derive information from LLMs. In this paper, we argue that humans could exploit multi-turn dialogue to induce LLMs into generating harmful information. LLMs may not intend to reject cautionary or borderline unsafe queries, even if each turn is closely served for one malicious purpose in a multi-turn dialogue. Therefore, by decomposing an unsafe query into several sub-queries for multi-turn dialogue, we induced LLMs to answer harmful sub-questions incrementally, culminating in an overall harmful response. Our experiments, conducted across a wide range of LLMs, indicate current inadequacies in the safety mechanisms of LLMs in multi-turn dialogue. Our findings expose vulnerabilities of LLMs in complex scenarios involving multi-turn dialogue, presenting new challenges for the safety of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特に「ジェイルブレイク」を受ける場合、違法または非倫理的な応答を生成することが示されている。脱獄の研究はLLMの安全性の問題を浮き彫りにした。しかし、従来の研究では、LLMから人間が情報を引き出す重要なモードであるマルチターン対話によって生じる潜在的な複雑さやリスクを無視して、シングルターン対話に主に焦点を合わせてきた。本稿では,人間が多ターン対話を利用してLSMを誘導し,有害な情報を生成することを論じる。 LLMは、マルチターン対話において、各ターンが悪意ある1つの目的のために密に提供されたとしても、警告やバウンダリのアンセーフクエリを拒否する意図はない。そこで,マルチターン対話のために,安全でないクエリを複数のサブクエリに分解することで,LSMに有害なサブクエリに対する回答を徐々に誘導し,全体として有害な応答を導いた。本実験は多方向対話におけるLLMの安全性メカニズムの問題点を示唆するものである。本研究は,マルチターン対話を伴う複雑なシナリオにおいて,LLMの脆弱性を明らかにし,LLMの安全性に関する新たな課題を提示する。

関連論文リスト

The Anatomy of Conversational Scams: A Topic-Based Red Teaming Analysis of Multi-Turn Interactions in LLMs [3.7304174114240545]
シングルターン安全性評価が達成できないマルチターン会話詐欺の新たなリスクについて検討した。英語と中国語の8つの最先端モデルを評価する。その結果, スカム相互作用は繰り返しエスカレーションパターンに従っており, 防御には検証機構と遅延機構が用いられていることがわかった。
論文参考訳（メタデータ） (2026-01-06T16:06:04Z)
Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文参考訳（メタデータ） (2025-10-16T05:29:36Z)
SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文参考訳（メタデータ） (2025-05-31T18:38:23Z)
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。安全制御理論に基づく安全ステアリングフレームワークを提案する。本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文参考訳（メタデータ） (2025-02-28T21:10:03Z)
SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文参考訳（メタデータ） (2025-02-16T12:08:08Z)
Large Language Model Supply Chain: Open Problems From the Security Perspective [25.320736806895976]
大規模言語モデル(LLM)はソフトウェア開発パラダイムを変えつつあり、学術と産業の両方から大きな注目を集めています。各コンポーネントの潜在的なセキュリティリスクとLCM SCのコンポーネント間の統合について議論する第一歩を踏み出します。
論文参考訳（メタデータ） (2024-11-03T15:20:21Z)
Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.046944831084776]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文参考訳（メタデータ） (2024-05-09T08:15:21Z)
Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。 7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文参考訳（メタデータ） (2024-04-24T23:39:58Z)
Large Language Models are Vulnerable to Bait-and-Switch Attacks for Generating Harmful Content [33.99403318079253]
大きな言語モデルから来る安全なテキストでさえ、Bait-and-Switch攻撃によって潜在的に危険なコンテンツになる可能性がある。このアプローチの目覚ましい有効性は、LLMの信頼性の高い安全ガードレールを開発する上で重要な課題を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T16:46:36Z)
Exploring the Adversarial Capabilities of Large Language Models [25.7847594292453]
大きな言語モデル(LLM)は、良心的なサンプルから敵の例を作れば、既存の安全なレールを騙すことができる。我々の実験は、ヘイトスピーチ検出に焦点をあて、LLMが敵の摂動を見つけることに成功し、ヘイトスピーチ検出システムを効果的に損なうことを示した。
論文参考訳（メタデータ） (2024-02-14T12:28:38Z)
The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文参考訳（メタデータ） (2024-01-23T23:12:09Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文参考訳（メタデータ） (2023-05-23T04:10:26Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。