論文の概要: Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs
- arxiv url: http://arxiv.org/abs/2601.13528v1
- Date: Tue, 20 Jan 2026 02:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.12424
- Title: Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs
- Title(参考訳): 安全出力の微調整による有害な能力の回避
- Authors: Jackson Kaunismaa, Avery Griffin, John Hughes, Christina Q. Knight, Mrinank Sharma, Erik Jones,
- Abstract要約: 堅牢に保護されたモデルでさえ、オープンソースモデルで有害な機能を引き出すために使用することができる。
我々の研究は、アウトプットレベルのセーフガードによる生態系レベルのリスク軽減の課題を示しています。
- 参考スコア(独自算出の注目度): 8.50389237277747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model developers implement safeguards in frontier models to prevent misuse, for example, by employing classifiers to filter dangerous outputs. In this work, we demonstrate that even robustly safeguarded models can be used to elicit harmful capabilities in open-source models through elicitation attacks. Our elicitation attacks consist of three stages: (i) constructing prompts in adjacent domains to a target harmful task that do not request dangerous information; (ii) obtaining responses to these prompts from safeguarded frontier models; (iii) fine-tuning open-source models on these prompt-output pairs. Since the requested prompts cannot be used to directly cause harm, they are not refused by frontier model safeguards. We evaluate these elicitation attacks within the domain of hazardous chemical synthesis and processing, and demonstrate that our attacks recover approximately 40% of the capability gap between the base open-source model and an unrestricted frontier model. We then show that the efficacy of elicitation attacks scales with the capability of the frontier model and the amount of generated fine-tuning data. Our work demonstrates the challenge of mitigating ecosystem level risks with output-level safeguards.
- Abstract(参考訳): モデル開発者は、例えば危険な出力をフィルタリングするために分類器を使用することで、誤用を防ぐために、フロンティアモデルでセーフガードを実装する。
本研究は, オープンソースモデルにおいて, 強固に保護されたモデルであっても, 引き起こし攻撃によって有害な機能を引き出すことができることを示す。
私たちの誘発攻撃は3つの段階から成り立っている。
一 危険情報を要求しない目的の有害な業務に隣接領域の指示書を作成すること。
二 保護されたフロンティアモデルからこれらのプロンプトに対する応答を得ること。
(iii)これらのプロンプト出力ペア上での微調整オープンソースモデル。
要求されたプロンプトは直接害を与えるために使用できないため、フロンティアモデルセーフガードによって拒否されることはない。
本研究では, 有害な化学合成・処理領域内におけるこれらの帯電攻撃の評価を行い, 基礎となるオープンソースモデルと非制限フロンティアモデルとの能力ギャップの約40%を回復できることを実証した。
次に、フロンティアモデルの性能と、生成した微調整データの量に応じて、エレケーション攻撃の有効性がスケールすることを示す。
我々の研究は、アウトプットレベルのセーフガードによる生態系レベルのリスク軽減の課題を示しています。
関連論文リスト
- Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Verification-Guided Falsification for Safe RL via Explainable Abstraction and Risk-Aware Exploration [8.246285288584625]
本稿では、説明可能性、モデルチェック、リスク誘導のファルシフィケーションを統合し、厳密性とカバレッジを両立させるハイブリッドフレームワークを提案する。
我々のアプローチは、包括的抽象ポリシー要約(CAPS)を用いたRLポリシーの人間解釈可能な抽象化の構築から始まる。
違反が検出されない場合、オフラインデータセットの抽象化とカバレッジに制限があるため、満足度を結論付けることはできません。
論文 参考訳(メタデータ) (2025-06-04T00:54:01Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - SIDE: Surrogate Conditional Data Extraction from Diffusion Models [32.18993348942877]
textbfSurrogate condItional Data extract (SIDE) は、データ駆動型サロゲート条件を構築し、任意のDPMからターゲット抽出を可能にするフレームワークである。
SIDEは、いわゆる安全無条件モデルからトレーニングデータを抽出し、条件付きモデルであってもベースラインアタックより優れていることを示す。
我々の研究は、DPMの脅威状況を再定義し、厳密な条件付けを基本的な脆弱性として確立し、モデルプライバシ評価のための新しいより強力なベンチマークを設定します。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。