論文の概要: OR-Bench: An Over-Refusal Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20947v1
- Date: Fri, 31 May 2024 15:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:48:55.102988
- Title: OR-Bench: An Over-Refusal Benchmark for Large Language Models
- Title(参考訳): OR-Bench: 大規模言語モデルに対する過剰な拒否ベンチマーク
- Authors: Justin Cui, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh,
- Abstract要約: 大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
「本研究は、一見有毒なプロンプトの大規模集合を自動生成する新しい方法を提案する。」
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
- 参考スコア(独自算出の注目度): 65.34666117785179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) require careful safety alignment to prevent malicious outputs. While significant research focuses on mitigating harmful content generation, the enhanced safety often come with the side effect of over-refusal, where the LLMs may reject innocuous prompts and become less helpful. Although the issue of over-refusal has been empirically observed, a systematic measurement is challenging due to the difficulty of crafting prompts that appear harmful but are benign. This study proposes a novel method for automatically generating large-scale sets of ``seemingly toxic prompts'' (benign prompts likely rejected by LLMs). Leveraging this technique, we introduce OR-Bench, the first large-scale over-refusal benchmark. OR-Bench comprises 80,000 seemingly toxic prompts across 10 common rejection categories, a subset of around 1,000 hard prompts that are challenging even for state-of-the-art LLMs, and an additional 600 toxic prompts to prevent indiscriminate responses. We then conduct a comprehensive study to measure the over-refusal of 25 popular LLMs across 8 model families. Our datasets are available at https://huggingface.co/datasets/bench-llm/OR-Bench and the corresponding demo can be found at https://huggingface.co/spaces/bench-llm/or-bench. We hope this benchmark can help the community develop better safety aligned models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
有害なコンテンツ生成を緩和することに焦点を当てた重要な研究であるが、安全性の向上は、LLMが無害なプロンプトを拒絶し、役に立たないという、過剰な拒絶の副作用を伴うことが多い。
過剰拒絶の問題は実証的に観察されているが、有害に見えるが良心的なプロンプトの製作が困難であるため、体系的な測定は困難である。
そこで本研究では,LLMによって拒否される可能性のある「有害なプロンプト」の大規模集合を自動生成する手法を提案する。
この手法を活用することで、最初の大規模オーバーリファレンスベンチマークであるOR-Benchを導入する。
OR-Benchは10の共通の拒絶カテゴリーに80,000の有害なプロンプト、1000のハードプロンプトのサブセット、そして600の有害なプロンプトからなり、無差別な反応を防いでいる。
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
データセットはhttps://huggingface.co/datasets/bench-llm/OR-Benchで、対応するデモはhttps://huggingface.co/spaces/bench-llm/or-benchで見ることができる。
このベンチマークが、コミュニティがより安全なモデルを開発するのに役立つことを願っています。
関連論文リスト
- MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Toxicity Detection for Free [16.07605369484645]
特定の開始トークンのロジットに基づく玩具モデルでは、トレーニングや追加計算コストを必要とせず、信頼性の高い性能が得られることを示す。
我々は、複数の測定値の下でSOTA検出器をはるかに上回る、第1応答トークンロジットのスパースロジスティック回帰モデルを用いて、よりロジスティックな検出器を構築する。
論文 参考訳(メタデータ) (2024-05-29T07:03:31Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。