論文の概要: HarDBench: A Benchmark for Draft-Based Co-Authoring Jailbreak Attacks for Safe Human-LLM Collaborative Writing
- arxiv url: http://arxiv.org/abs/2604.19274v1
- Date: Tue, 21 Apr 2026 09:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.706349
- Title: HarDBench: A Benchmark for Draft-Based Co-Authoring Jailbreak Attacks for Safe Human-LLM Collaborative Writing
- Title(参考訳): HarDBench: 安全なHuman-LLMコラボレーション記述のための、ドラフトベースの共同認証ジェイルブレーク攻撃のベンチマーク
- Authors: Euntae Kim, Soomin Han, Buru Chang,
- Abstract要約: 大規模言語モデル (LLMs) は共同執筆の共著者として多用されている。
悪意のあるユーザーは、危険な内容の未完成のドラフトをジェイルブレイクして、有害なアウトプットを発生させるかもしれない。
HarDBenchは、この新興脅威に対するLLMの堅牢性を評価するために設計された、体系的なベンチマークである。
- 参考スコア(独自算出の注目度): 7.088503833248158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used as co-authors in collaborative writing, where users begin with rough drafts and rely on LLMs to complete, revise, and refine their content. However, this capability poses a serious safety risk: malicious users could jailbreak the models-filling incomplete drafts with dangerous content-to force them into generating harmful outputs. In this paper, we identify the vulnerability of current LLMs to such draft-based co-authoring jailbreak attacks and introduce HarDBench, a systematic benchmark designed to evaluate the robustness of LLMs against this emerging threat. HarDBench spans a range of high-risk domains-including Explosives, Drugs, Weapons, and Cyberattacks-and features prompts with realistic structure and domain-specific cues to assess the model susceptibility to harmful completions. To mitigate this risk, we introduce a safety-utility balanced alignment approach based on preference optimization, training models to refuse harmful completions while remaining helpful on benign drafts. Experimental results show that existing LLMs are highly vulnerable in co-authoring contexts and our alignment method significantly reduces harmful outputs without degrading performance on co-authoring capabilities. This presents a new paradigm for evaluating and aligning LLMs in human-LLM collaborative writing settings. Our new benchmark and dataset are available on our project page at https://github.com/untae0122/HarDBench
- Abstract(参考訳): 大規模言語モデル(LLM)は共同執筆の共著者としてますます使われており、ユーザーは大まかな草案から始めて、コンテンツを完成させ、修正し、洗練するためにLLMに依存している。
悪意のあるユーザーは、危険な内容の未完成のドラフトをジェイルブレイクして、有害なアウトプットを発生させる。
本稿では,このようなドラフトベースでJailbreak攻撃を共著するLLMの脆弱性を特定し,この新たな脅威に対するLLMの堅牢性を評価するための体系的ベンチマークであるHarDBenchを紹介する。
HarDBenchは、爆発物、薬品、武器、サイバー攻撃を含む、さまざまなリスクの高いドメインにまたがっており、有害な完了に対するモデルの感受性を評価するために、現実的な構造とドメイン固有の手がかりを持つ。
このリスクを軽減するため、我々は、優先最適化に基づく安全ユーティリティバランスアライメントアプローチを導入し、有害な完了を防止しつつ、良質なドラフトに役立ちながらトレーニングモデルを構築した。
実験結果から,既存のLCMは共著者の文脈では非常に脆弱であり,アライメント手法は共著者能力の劣化を伴わずに有害な出力を著しく低減することがわかった。
これは、人間-LLM協調書き込み設定におけるLLMの評価と調整のための新しいパラダイムを示す。
新しいベンチマークとデータセットは、プロジェクトページhttps://github.com/untae0122/HarDBenchで公開しています。
関連論文リスト
- Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。