論文の概要: On Evaluating the Durability of Safeguards for Open-Weight LLMs
- arxiv url: http://arxiv.org/abs/2412.07097v1
- Date: Tue, 10 Dec 2024 01:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:52.737561
- Title: On Evaluating the Durability of Safeguards for Open-Weight LLMs
- Title(参考訳): オープンウェイトLLMにおける安全ガードの耐久性評価について
- Authors: Xiangyu Qi, Boyi Wei, Nicholas Carlini, Yangsibo Huang, Tinghao Xie, Luxi He, Matthew Jagielski, Milad Nasr, Prateek Mittal, Peter Henderson,
- Abstract要約: 我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。
これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。
今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
- 参考スコア(独自算出の注目度): 80.36750298080275
- License:
- Abstract: Stakeholders -- from model developers to policymakers -- seek to minimize the dual-use risks of large language models (LLMs). An open challenge to this goal is whether technical safeguards can impede the misuse of LLMs, even when models are customizable via fine-tuning or when model weights are fully open. In response, several recent studies have proposed methods to produce durable LLM safeguards for open-weight LLMs that can withstand adversarial modifications of the model's weights via fine-tuning. This holds the promise of raising adversaries' costs even under strong threat models where adversaries can directly fine-tune model weights. However, in this paper, we urge for more careful characterization of the limits of these approaches. Through several case studies, we demonstrate that even evaluating these defenses is exceedingly difficult and can easily mislead audiences into thinking that safeguards are more durable than they really are. We draw lessons from the evaluation pitfalls that we identify and suggest future research carefully cabin claims to more constrained, well-defined, and rigorously examined threat models, which can provide more useful and candid assessments to stakeholders.
- Abstract(参考訳): モデル開発者から政策立案者に至るまで、ステークホルダーは、大規模言語モデル(LLM)の二重使用リスクを最小限にしようとしています。
この目標に対するオープンな課題は、モデルが微調整によってカスタマイズ可能であったり、モデルウェイトが完全にオープンであったりしても、技術的保護がLLMの誤用を妨げるかどうかである。
これに対し、最近のいくつかの研究では、細調整によりモデルの重みの対角修正に耐えられるオープンウェイトLLMの耐久性のあるLLM安全ガードを作成する方法が提案されている。
これは、敵が直接チューンモデルの重量を微調整できる強力な脅威モデルの下でも、敵のコストを上げるという約束を保っている。
しかし,本稿では,これらのアプローチの限界について,より慎重な評価を求める。
いくつかのケーススタディを通じて、これらの防御を評価することさえ非常に困難であり、安全ガードが実際よりも耐久性が高いと考える観客を誤解させる可能性があることを実証した。
我々は、将来の研究が、より制約があり、明確に定義され、厳格に検討された脅威モデルに対して、慎重に主張する、評価の落とし穴から教訓を導き、ステークホルダーにより有用で率直な評価を提供する。
関連論文リスト
- On Calibration of LLM-based Guard Models for Reliable Content Moderation [27.611237252584402]
大規模言語モデル(LLM)は、有害なコンテンツを生成する可能性や、ガードレールを避けようとするユーザによって、重大なリスクを負う。
既存の研究では、脅威LSMの入力と出力を適度にするためのLLMベースのガードモデルが開発されている。
しかし、これらのガードモデルの信頼性と校正には限定的な注意が払われている。
論文 参考訳(メタデータ) (2024-10-14T12:04:06Z) - Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。
本手法は良性を保持しながらタンパー抵抗を大幅に改善する。
以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
論文 参考訳(メタデータ) (2024-08-01T17:59:12Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities [37.14654106278984]
我々は,オープンソースのLarge Language Models (LLMs) の信頼性に対する敵意評価を行う。
本稿では,信頼度攻撃のための悪質なデモンストレーションを慎重に行うことで,CoUの促進戦略であるAdvCoUを提案する。
我々の実験は、Vicuna、MPT、Falcon、Mistral、Llama 2など、最近のオープンソースのLLMシリーズを網羅している。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。