論文の概要: Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs
- arxiv url: http://arxiv.org/abs/2312.04782v1
- Date: Fri, 8 Dec 2023 01:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:20:16.812569
- Title: Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs
- Title(参考訳): 豆をこぼせ!
生産)llmからの強制的知識抽出
- Authors: Zhuo Zhang, Guangyu Shen, Guanhong Tao, Siyuan Cheng, Xiangyu Zhang
- Abstract要約: LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
- 参考スコア(独自算出の注目度): 31.80386572346993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are now widely used in various applications,
making it crucial to align their ethical standards with human values. However,
recent jail-breaking methods demonstrate that this alignment can be undermined
using carefully constructed prompts. In our study, we reveal a new threat to
LLM alignment when a bad actor has access to the model's output logits, a
common feature in both open-source LLMs and many commercial LLM APIs (e.g.,
certain GPT models). It does not rely on crafting specific prompts. Instead, it
exploits the fact that even when an LLM rejects a toxic request, a harmful
response often hides deep in the output logits. By forcefully selecting
lower-ranked output tokens during the auto-regressive generation process at a
few critical output positions, we can compel the model to reveal these hidden
responses. We term this process model interrogation. This approach differs from
and outperforms jail-breaking methods, achieving 92% effectiveness compared to
62%, and is 10 to 20 times faster. The harmful content uncovered through our
method is more relevant, complete, and clear. Additionally, it can complement
jail-breaking strategies, with which results in further boosting attack
performance. Our findings indicate that interrogation can extract toxic
knowledge even from models specifically designed for coding tasks.
- Abstract(参考訳): 大規模言語モデル(llm)は現在、様々なアプリケーションで広く使われており、倫理基準を人間の価値観に合わせることが重要である。
しかし、最近の脱獄法は、慎重に構築されたプロンプトを使って、このアライメントを弱めることができることを示している。
本研究は,オープンソースLLMと多くの商用LLM API(例えば,一部のGPTモデル)の共通機能である,悪いアクターがモデルの出力ロジットにアクセスした場合に,LCMアライメントに対する新たな脅威を明らかにするものである。
特定のプロンプトの作成には依存していない。
代わりに、LSMが有害な要求を拒絶しても、有害な応答が出力ログの奥深くに隠れるという事実を利用する。
自動回帰生成プロセス中の低ランク出力トークンをいくつかの臨界出力位置で強制的に選択することにより、モデルにこれらの隠れ応答を明らかにすることができる。
この過程モデルを尋問と呼ぶ。
このアプローチは刑務所収監方法と異なり、有効率は62%に対して92%で、10倍から20倍高速である。
私たちの方法で発見された有害なコンテンツは、より関連性があり、完全で、明確です。
さらに、脱獄戦略を補完し、攻撃性能をさらに向上させることができる。
本研究は,コーディングタスク用に特別に設計されたモデルからでも有毒な知識を抽出できることを示す。
関連論文リスト
- Logits of API-Protected LLMs Leak Proprietary Information [46.014638838911566]
比較的少数のAPIクエリから,APIで保護されたLLMに関する驚くほど多くの非公開情報を学習することが可能であることを示す。
現代のLLMは、モデル出力を全出力空間の線型部分空間に制限するソフトマックスボトルネックに悩まされている。
これは、安価なコストでいくつかの機能をアンロックするモデルイメージやモデルシグネチャに自らを結び付けていることを示す。
論文 参考訳(メタデータ) (2024-03-14T16:27:49Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That? [70.90792645587449]
命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by
Exploring Refusal Loss Landscapes [69.5883095262619]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Customizing Language Model Responses with Contrastive In-Context
Learning [8.674010267754051]
我々は、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。
これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。
答を生成する前に、モデルにサンプルを分析して、避けるべきことを教える。
この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。
論文 参考訳(メタデータ) (2024-01-30T19:13:12Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection
Method [37.61193254658253]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。