論文の概要: Stress-Testing Capability Elicitation With Password-Locked Models
- arxiv url: http://arxiv.org/abs/2405.19550v1
- Date: Wed, 29 May 2024 22:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:56:18.060177
- Title: Stress-Testing Capability Elicitation With Password-Locked Models
- Title(参考訳): パスワード同期モデルによるストレス試験能力の回復
- Authors: Ryan Greenblatt, Fabien Roger, Dmitrii Krasheninnikov, David Krueger,
- Abstract要約: 本研究は,微調整による誘発が能力を引き出すのに十分である条件について検討する。
いくつかの高品質なデモは、パスワードでロックされた機能を完全に引き出すのに十分であることがわかった。
評価だけでなく、実演も利用できる場合、強化学習のようなアプローチは、能力を引き出すことができることが多い。
- 参考スコア(独自算出の注目度): 6.6380867311877605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To determine the safety of large language models (LLMs), AI developers must be able to assess their dangerous capabilities. But simple prompting strategies often fail to elicit an LLM's full capabilities. One way to elicit capabilities more robustly is to fine-tune the LLM to complete the task. In this paper, we investigate the conditions under which fine-tuning-based elicitation suffices to elicit capabilities. To do this, we introduce password-locked models, LLMs fine-tuned such that some of their capabilities are deliberately hidden. Specifically, these LLMs are trained to exhibit these capabilities only when a password is present in the prompt, and to imitate a much weaker LLM otherwise. Password-locked models enable a novel method of evaluating capabilities elicitation methods, by testing whether these password-locked capabilities can be elicited without using the password. We find that a few high-quality demonstrations are often sufficient to fully elicit password-locked capabilities. More surprisingly, fine-tuning can elicit other capabilities that have been locked using the same password, or even different passwords. Furthermore, when only evaluations, and not demonstrations, are available, approaches like reinforcement learning are still often able to elicit capabilities. Overall, our findings suggest that fine-tuning is an effective method of eliciting hidden capabilities of current models, but may be unreliable when high-quality demonstrations are not available, e.g. as may be the case when models' (hidden) capabilities exceed those of human demonstrators.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性を決定するためには、AI開発者は危険な能力を評価する必要がある。
しかし、単純なプロンプト戦略はLLMの全機能を引き出すのに失敗することが多い。
より堅牢に機能を引き出す1つの方法は、タスクを完了させるためにLLMを微調整することです。
本稿では,微調整による誘引が能力を引き出すのに十分である条件について検討する。
これを実現するために、パスワードロックモデル(LLM)を導入し、その機能の一部を意図的に隠蔽するように微調整する。
具体的には、これらのLSMは、プロンプトにパスワードが存在する場合にのみこれらの能力を示すように訓練され、それ以外はより弱いLSMを模倣する。
パスワードロックされたモデルは、パスワードを使わずにこれらのパスワードロックされた機能を引き出すことができるかどうかをテストすることによって、機能を引き出す新しい方法を可能にする。
いくつかの高品質なデモは、パスワードでロックされた機能を完全に引き出すのに十分であることがわかった。
より驚くべきことに、微調整は、同じパスワードや異なるパスワードを使ってロックされた他の機能を引き出すことができる。
さらに、評価のみが利用可能であり、実演ではない場合、強化学習のようなアプローチは、しばしば能力を引き出すことができる。
全体としては、ファインチューニングは現在のモデルの隠れた能力を引き出す効果的な方法であるが、高品質なデモンストレーションが得られない場合、例えばモデルの(隠された)能力が人間のデモの能力を上回る場合など、信頼性が低い可能性があることを示唆している。
関連論文リスト
- Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? [3.258629327038072]
大規模言語モデル(LLM)は、自然言語処理における印象的な機能を示している。
しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。
本稿では,LLMをジェイルブレイクし,敵の引き金を通したアライメントを逆転させる概念について検討する。
論文 参考訳(メタデータ) (2024-08-05T17:27:29Z) - Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement [32.888016435098045]
大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。
本研究では,LSMに入力される前にユーザプロンプトを洗練する,転送可能でプラグイン可能なフレームワークを提案する。
この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
論文 参考訳(メタデータ) (2024-07-01T16:55:28Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Rethinking Jailbreaking through the Lens of Representation Engineering [45.70565305714579]
最近のジェイルブレイク手法の急増により、悪意のある入力に対するLarge Language Models(LLM)の脆弱性が明らかになった。
本研究では, 特定の行動パターンを明らかにすることで, 安全性に配慮したLCMの脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - PassGPT: Password Modeling and (Guided) Generation with Large Language
Models [59.11160990637616]
パスワード生成のためのパスワードリークをトレーニングした大規模言語モデルであるPassGPTを提案する。
また、任意の制約を満たすパスワードを生成するために、PassGPTサンプリング手順を利用する誘導パスワード生成の概念も導入する。
論文 参考訳(メタデータ) (2023-06-02T13:49:53Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。