論文の概要: Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats
- arxiv url: http://arxiv.org/abs/2411.17693v1
- Date: Tue, 26 Nov 2024 18:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:00.820014
- Title: Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats
- Title(参考訳): 非信頼LLMの適応展開による分散脅威低減
- Authors: Jiaxin Wen, Vivek Hebbar, Caleb Larson, Aryan Bhatt, Ansh Radhakrishnan, Mrinank Sharma, Henry Sleight, Shi Feng, He He, Ethan Perez, Buck Shlegeris, Akbir Khan,
- Abstract要約: 大規模言語モデルが意図的に回避しようとする場合でも,安全対策が有効かどうかを検討する。
マイクロプロトコールの選択には、適応マクロプロトコールを使用する2段階のデプロイメントフレームワークを使用する。
有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
- 参考スコア(独自算出の注目度): 22.843390303635655
- License:
- Abstract: As large language models (LLMs) become increasingly capable, it is prudent to assess whether safety measures remain effective even if LLMs intentionally try to bypass them. Previous work introduced control evaluations, an adversarial framework for testing deployment strategies of untrusted models (i.e., models which might be trying to bypass safety measures). While prior work treats a single failure as unacceptable, we perform control evaluations in a "distributed threat setting" -- a setting where no single action is catastrophic and no single action provides overwhelming evidence of misalignment. We approach this problem with a two-level deployment framework that uses an adaptive macro-protocol to choose between micro-protocols. Micro-protocols operate on a single task, using a less capable, but extensively tested (trusted) model to harness and monitor the untrusted model. Meanwhile, the macro-protocol maintains an adaptive credence on the untrusted model's alignment based on its past actions, using it to pick between safer and riskier micro-protocols. We evaluate our method in a code generation testbed where a red team attempts to generate subtly backdoored code with an LLM whose deployment is safeguarded by a blue team. We plot Pareto frontiers of safety (# of non-backdoored solutions) and usefulness (# of correct solutions). At a given level of usefulness, our adaptive deployment strategy reduces the number of backdoors by 80% compared to non-adaptive baselines.
- Abstract(参考訳): 大規模言語モデル (LLM) の能力が向上するにつれて, LLM が意図的に回避しようとする場合でも, 安全対策が有効であるかどうかを評価することは賢明である。
従来の作業では、信頼できないモデル(安全対策を回避しようとするかもしれないモデル)のデプロイメント戦略をテストするための逆のフレームワークであるコントロール評価が導入されていた。
以前の作業では、単一障害を許容できないものとして扱うが、"分散脅威設定(distributed threat set)" -- 単一のアクションが破滅的ではなく、単一のアクションが圧倒的なミスアライメントの証拠を提供するような環境では、コントロール評価を行う。
本稿では,マイクロプロトコールの選択に適応マクロプロトコールを用いる2段階配置フレームワークを用いてこの問題に対処する。
マイクロプロトコールは単一のタスクで動作し、信頼性の低いが広範囲にテストされた(信頼された)モデルを使用して、信頼できないモデルを利用および監視する。
一方、マクロプロトコールは過去の行動に基づいて信頼できないモデルのアライメントに対する適応的信頼を維持しており、より安全なマイクロプロトコールとリスクの高いマイクロプロトコールを選択できる。
我々は,我々の手法を,レッドチームがブルーチームによって安全に配置されたLDMで下位のバックドアコードを生成しようとするコード生成テストベッドで評価した。
安全性(非バックドアソリューション#)と有用性(正しいソリューション#)のParetoフロンティアをプロットします。
有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - A sketch of an AI control safety case [3.753791609999324]
LLMエージェントが障害を引き起こすためのキャパシティが向上するにつれて、AI開発者は、安全であることを正当化するために監視などのコントロール手段をますます頼りにしている。
開発者が"コントロールセーフティケース"を構築する方法についてスケッチします。
この安全ケーススケッチは、危険な能力を持つLLMエージェントが安全にデプロイ可能であることを示すために使用できる、より具体的な議論への一歩です。
論文 参考訳(メタデータ) (2025-01-28T21:52:15Z) - Position: On-Premises LLM Deployment Demands a Middle Path: Preserving Privacy Without Sacrificing Model Confidentiality [18.575663556525864]
ユーザ制御インフラストラクチャにクローズドソース LLM をデプロイすることで、データのプライバシが向上し、誤用リスクを軽減できる、と我々は主張する。
十分に設計されたオンプレミスデプロイメントでは、モデル盗難を防止することによって、モデルの機密性を保証し、プライバシ保護のカスタマイズを提供する必要がある。
私たちの調査結果は、プライバシと機密性が共存可能であることを示し、オンプレミスのAIデプロイメントをセキュアにする方法を確立しました。
論文 参考訳(メタデータ) (2024-10-15T02:00:36Z) - Efficiently Deploying LLMs with Controlled Risk [0.9208007322096532]
モデル内不確実性を利用してクエリをデリゲートする,階層型連鎖とマルチレベルアプテンション(HCMA)を提案する。
我々の枠組みは、効率とリスクの間に新たなトレードオフをもたらす。
論文 参考訳(メタデータ) (2024-10-03T03:25:56Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Model-Assisted Probabilistic Safe Adaptive Control With Meta-Bayesian
Learning [33.75998206184497]
メタラーニング,ベイズモデル,制御バリア関数(CBF)メソッドを統合した新しい適応型安全制御フレームワークを開発した。
具体的には、CBF法の助けを借りて、統一適応ベイズ線形回帰モデルにより固有不確かさと外部不確かさを学習する。
新しい制御タスクのために,いくつかのサンプルを用いてメタ学習モデルを洗練し,安全制御を確保するためにCBF制約に悲観的信頼境界を導入する。
論文 参考訳(メタデータ) (2023-07-03T08:16:01Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。