論文の概要: AI Control: Improving Safety Despite Intentional Subversion
- arxiv url: http://arxiv.org/abs/2312.06942v3
- Date: Fri, 5 Jan 2024 12:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 17:41:05.589391
- Title: AI Control: Improving Safety Despite Intentional Subversion
- Title(参考訳): AIコントロール:意図的な転倒にもかかわらず安全性を改善する
- Authors: Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan, Fabien Roger
- Abstract要約: 我々は,意図的な転倒に対して堅牢な安全手法のパイプラインを開発し,評価する。
バックドアを含むソリューションを決して提出しないプロトコルについて検討する。
- 参考スコア(独自算出の注目度): 1.6678419461030687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become more powerful and are deployed more
autonomously, it will be increasingly important to prevent them from causing
harmful outcomes. Researchers have investigated a variety of safety techniques
for this purpose, e.g. using models to review the outputs of other models, or
red-teaming techniques to surface subtle failure modes. However, researchers
have not evaluated whether such techniques still ensure safety if the model is
itself intentionally trying to subvert them. In this paper, we develop and
evaluate pipelines of safety techniques ("protocols") that are robust to
intentional subversion.
We investigate a scenario in which we want to solve a sequence of programming
problems, using access to a powerful but untrusted model (in our case, GPT-4),
access to a less powerful trusted model (in our case, GPT-3.5), and limited
access to high-quality trusted labor. We investigate protocols that aim to
never submit solutions containing backdoors, which we operationalize here as
logical errors that are not caught by test cases.
We investigate a range of protocols and test each against strategies that the
untrusted model could use to subvert them. One protocol is what we call trusted
editing. This protocol first asks GPT-4 to write code, and then asks GPT-3.5 to
rate the suspiciousness of that code. If the code is below some suspiciousness
threshold, it is submitted. Otherwise, GPT-3.5 edits the solution to remove
parts that seem suspicious and then submits the edited code. Another protocol
is untrusted monitoring. This protocol asks GPT-4 to write code, and then asks
another instance of GPT-4 whether the code is backdoored, using various
techniques to prevent the GPT-4 instances from colluding. These protocols
improve substantially on simple baselines.
- Abstract(参考訳): 大きな言語モデル(LLM)がより強力になり、より自律的にデプロイされるようになるにつれ、有害な結果を引き起こすのを防ぐことがますます重要になります。
研究者は、モデルを使用して他のモデルのアウトプットをレビューしたり、微妙な障害モードを表面化するための赤チーム技術など、この目的のために様々な安全技術を調査している。
しかし、研究者は、モデル自体が意図的にそれを覆そうとしている場合、そのような手法が安全を保っているかどうかを評価していない。
本稿では,意図的な転倒に対して堅牢な安全技術(プロトコール)のパイプラインを開発し,評価する。
我々は、強力だが信頼できないモデル(GPT-4)へのアクセス、信頼性の低いモデル(GPT-3.5)へのアクセス、高品質な信頼性のある作業へのアクセスの制限など、プログラミングの一連の問題を解決するシナリオについて検討する。
バックドアを含むソリューションを決して提出しないプロトコルについて検討し、ここではテストケースで捕捉されない論理的エラーとして運用する。
我々は、様々なプロトコルを調査し、信頼できないモデルがそれらを抑止するために使用できる戦略に対してそれぞれをテストする。
1つのプロトコルはtrusted editingと呼ばれるものです。
このプロトコルはまず GPT-4 にコードを書き、次に GPT-3.5 にコードの不審さを評価するよう要求する。
コードが疑わしいしきい値以下であれば、それを提出する。
そうでなければ、GPT-3.5は、不審と思われる部分を削除するためにソリューションを編集し、その後、編集されたコードを提出する。
もう一つのプロトコルは信頼できない監視である。
このプロトコルは GPT-4 にコードを書き、次に GPT-4 の別のインスタンスにコードがバックドアされているかどうかを尋ねる。
これらのプロトコルは、単純なベースラインで大幅に改善される。
関連論文リスト
- SpecMon: Modular Black-Box Runtime Monitoring of Security Protocols [5.202524136984542]
我々は、アプリケーションがイベントストリームを取得するのに使用するネットワークと暗号化ライブラリを実装します。
次に、これらの観測結果を仕様モデルで有効なトレースにマッチングするために、効率的なアルゴリズムを使用します。
論文 参考訳(メタデータ) (2024-09-04T17:54:29Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。
新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。
既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文 参考訳(メタデータ) (2024-06-10T14:18:56Z) - Enhancing Security of AI-Based Code Synthesis with GitHub Copilot via Cheap and Efficient Prompt-Engineering [1.7702475609045947]
開発者や企業がその潜在能力を最大限に活用することを避けている理由の1つは、生成されたコードに対する疑わしいセキュリティである。
本稿ではまず,現状を概観し,今後の課題について述べる。
我々は、GitHub CopilotのようなAIベースのコードジェネレータのコードセキュリティを改善するために、プロンプト変換手法に基づく体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-19T12:13:33Z) - DT-SIM: Property-Based Testing for MPC Security [2.0308771704846245]
プロパティベースのテストはセキュアプロトコルのセキュリティバグの検出に有効である。
セキュアマルチパーティ計算(MPC)を特に対象とする。
MPCプロトコルのビットレベル実装において,様々な欠陥を検出するテストを作成する。
論文 参考訳(メタデータ) (2024-03-08T02:02:24Z) - Towards AI-Assisted Synthesis of Verified Dafny Methods [1.0187122752343796]
既存の大規模言語モデルでは、検証プログラムの習熟度が著しく低下している。
Dafny検証対応言語における2つの事前学習モデルの習熟度を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-01T00:07:23Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Mitigating Leakage in Federated Learning with Trusted Hardware [0.0]
連合学習では、複数のパーティが協力して、それぞれのデータセット上でグローバルモデルをトレーニングします。
不正に行われた場合、一部の情報はまだ関係者間でリークされる可能性がある。
信頼性の高い実行環境に依存した2つのセキュアバージョンを提案する。
論文 参考訳(メタデータ) (2020-11-10T07:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。