Fugu-MT 論文翻訳(概要): OR-Bench: An Over-Refusal Benchmark for Large Language Models

論文の概要: OR-Bench: An Over-Refusal Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2405.20947v1
Date: Fri, 31 May 2024 15:44:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 13:48:55.102988
Title: OR-Bench: An Over-Refusal Benchmark for Large Language Models
Title（参考訳）: OR-Bench: 大規模言語モデルに対する過剰な拒否ベンチマーク
Authors: Justin Cui, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh,
Abstract要約: 大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。「本研究は、一見有毒なプロンプトの大規模集合を自動生成する新しい方法を提案する。」次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
参考スコア（独自算出の注目度）: 65.34666117785179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) require careful safety alignment to prevent malicious outputs. While significant research focuses on mitigating harmful content generation, the enhanced safety often come with the side effect of over-refusal, where the LLMs may reject innocuous prompts and become less helpful. Although the issue of over-refusal has been empirically observed, a systematic measurement is challenging due to the difficulty of crafting prompts that appear harmful but are benign. This study proposes a novel method for automatically generating large-scale sets of ``seemingly toxic prompts'' (benign prompts likely rejected by LLMs). Leveraging this technique, we introduce OR-Bench, the first large-scale over-refusal benchmark. OR-Bench comprises 80,000 seemingly toxic prompts across 10 common rejection categories, a subset of around 1,000 hard prompts that are challenging even for state-of-the-art LLMs, and an additional 600 toxic prompts to prevent indiscriminate responses. We then conduct a comprehensive study to measure the over-refusal of 25 popular LLMs across 8 model families. Our datasets are available at https://huggingface.co/datasets/bench-llm/OR-Bench and the corresponding demo can be found at https://huggingface.co/spaces/bench-llm/or-bench. We hope this benchmark can help the community develop better safety aligned models.
Abstract（参考訳）: 大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。有害なコンテンツ生成を緩和することに焦点を当てた重要な研究であるが、安全性の向上は、LLMが無害なプロンプトを拒絶し、役に立たないという、過剰な拒絶の副作用を伴うことが多い。過剰拒絶の問題は実証的に観察されているが、有害に見えるが良心的なプロンプトの製作が困難であるため、体系的な測定は困難である。そこで本研究では,LLMによって拒否される可能性のある「有害なプロンプト」の大規模集合を自動生成する手法を提案する。この手法を活用することで、最初の大規模オーバーリファレンスベンチマークであるOR-Benchを導入する。 OR-Benchは10の共通の拒絶カテゴリーに80,000の有害なプロンプト、1000のハードプロンプトのサブセット、そして600の有害なプロンプトからなり、無差別な反応を防いでいる。次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。データセットはhttps://huggingface.co/datasets/bench-llm/OR-Benchで、対応するデモはhttps://huggingface.co/spaces/bench-llm/or-benchで見ることができる。このベンチマークが、コミュニティがより安全なモデルを開発するのに役立つことを願っています。

関連論文リスト

Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs? [0.836362570897926]
このような一般化のための既存手法について検討し、それらが不十分であることを示す。性能劣化を回避し、安全な性能を維持するために、我々は2段階のフレームワークを提唱する。最後のトークンに対する最後の隠れ状態は、堅牢なパフォーマンスを提供するのに十分であることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:31:50Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-29T11:47:01Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文参考訳（メタデータ） (2024-06-22T23:26:07Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。本稿では,中国のLLMの安全性評価のためのデータセットを提案する。次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文参考訳（メタデータ） (2024-02-19T14:56:18Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10～20倍である。本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文参考訳（メタデータ） (2023-12-08T01:41:36Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文参考訳（メタデータ） (2023-08-18T16:27:04Z)
Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文参考訳（メタデータ） (2023-05-15T15:44:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。