論文の概要: LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem?
- arxiv url: http://arxiv.org/abs/2307.10719v1
- Date: Thu, 20 Jul 2023 09:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:50:46.066673
- Title: LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem?
- Title(参考訳): LLM検閲: 機械学習の課題か、それともコンピュータセキュリティの問題か?
- Authors: David Glukhov, Ilia Shumailov, Yarin Gal, Nicolas Papernot, Vardan
Papyan
- Abstract要約: セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
- 参考スコア(独自算出の注目度): 52.71988102039535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited impressive capabilities in
comprehending complex instructions. However, their blind adherence to provided
instructions has led to concerns regarding risks of malicious use. Existing
defence mechanisms, such as model fine-tuning or output censorship using LLMs,
have proven to be fallible, as LLMs can still generate problematic responses.
Commonly employed censorship approaches treat the issue as a machine learning
problem and rely on another LM to detect undesirable content in LLM outputs. In
this paper, we present the theoretical limitations of such semantic censorship
approaches. Specifically, we demonstrate that semantic censorship can be
perceived as an undecidable problem, highlighting the inherent challenges in
censorship that arise due to LLMs' programmatic and instruction-following
capabilities. Furthermore, we argue that the challenges extend beyond semantic
censorship, as knowledgeable attackers can reconstruct impermissible outputs
from a collection of permissible ones. As a result, we propose that the problem
of censorship needs to be reevaluated; it should be treated as a security
problem which warrants the adaptation of security-based approaches to mitigate
potential risks.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な命令を解釈する際、印象的な能力を示した。
しかし、提供指示に対する盲目な遵守は、悪意ある使用の危険性に関する懸念につながっている。
LLMを用いたモデル微調整や出力検閲のような既存の防御機構は、まだ問題のある応答を生成できるため、失敗することが証明されている。
一般的な検閲アプローチでは、この問題を機械学習の問題として扱い、LLM出力における望ましくないコンテンツを検出するために別のLMに依存している。
本稿では,このようなセマンティック検閲手法の理論的限界について述べる。
具体的には,semantic censorship が決定不能な問題として認識される可能性を示し,llms のプログラム的および命令追従機能に起因する検閲の固有の課題を浮き彫りにする。
さらに我々は、知識のある攻撃者が許容可能なものの集合から許容できない出力を再構築できるため、これらの課題は意味的な検閲を超えて広がると主張する。
その結果、検閲の問題は再評価されるべきであり、潜在的なリスクを軽減するためのセキュリティベースのアプローチの適応を保証するセキュリティ問題として扱われるべきである。
関連論文リスト
- HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。
HiddenGuard には LLM と連携して動作する Prism が組み込まれている。
実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文 参考訳(メタデータ) (2024-10-03T17:10:41Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Large Language Models are Vulnerable to Bait-and-Switch Attacks for
Generating Harmful Content [33.99403318079253]
大きな言語モデルから来る安全なテキストでさえ、Bait-and-Switch攻撃によって潜在的に危険なコンテンツになる可能性がある。
このアプローチの目覚ましい有効性は、LLMの信頼性の高い安全ガードレールを開発する上で重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T16:46:36Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [38.437893814759086]
大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本研究では, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の再現を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。