論文の概要: LongSafetyBench: Long-Context LLMs Struggle with Safety Issues
- arxiv url: http://arxiv.org/abs/2411.06899v1
- Date: Mon, 11 Nov 2024 11:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:51.657433
- Title: LongSafetyBench: Long-Context LLMs Struggle with Safety Issues
- Title(参考訳): LongSafetyBench:Long-Context LLMsの安全性問題
- Authors: Mianqiu Huang, Xiaoran Liu, Shaojun Zhou, Mozhi Zhang, Chenkun Tan, Pengyu Wang, Qipeng Guo, Zhe Xu, Linyang Li, Zhikai Lei, Linlin Li, Qun Liu, Yaqian Zhou, Xipeng Qiu, Xuanjing Huang,
- Abstract要約: 長文言語モデルは安全上の懸念を示すことができる。
ほとんどの主流の長文モデルからの安全な応答の割合は50%以下である。
LongSafetyBenchは、長期コンテキスト言語モデルの安全性機能を評価するための貴重なベンチマークとして機能する。
- 参考スコア(独自算出の注目度): 83.75506157823517
- License:
- Abstract: With the development of large language models (LLMs), the sequence length of these models continues to increase, drawing significant attention to long-context language models. However, the evaluation of these models has been primarily limited to their capabilities, with a lack of research focusing on their safety. Existing work, such as ManyShotJailbreak, has to some extent demonstrated that long-context language models can exhibit safety concerns. However, the methods used are limited and lack comprehensiveness. In response, we introduce \textbf{LongSafetyBench}, the first benchmark designed to objectively and comprehensively evaluate the safety of long-context models. LongSafetyBench consists of 10 task categories, with an average length of 41,889 words. After testing eight long-context language models on LongSafetyBench, we found that existing models generally exhibit insufficient safety capabilities. The proportion of safe responses from most mainstream long-context LLMs is below 50\%. Moreover, models' safety performance in long-context scenarios does not always align with that in short-context scenarios. Further investigation revealed that long-context models tend to overlook harmful content within lengthy texts. We also proposed a simple yet effective solution, allowing open-source models to achieve performance comparable to that of top-tier closed-source models. We believe that LongSafetyBench can serve as a valuable benchmark for evaluating the safety capabilities of long-context language models. We hope that our work will encourage the broader community to pay attention to the safety of long-context models and contribute to the development of solutions to improve the safety of long-context LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発に伴い、これらのモデルのシーケンス長は増加し続け、長いコンテキスト言語モデルに大きな注目を集めている。
しかしながら、これらのモデルの評価は、主にその能力に限られており、安全性に焦点をあてる研究が欠如している。
ManyShotJailbreakのような既存の作業は、長いコンテキスト言語モデルが安全上の懸念を示すことをある程度証明しなければならない。
しかし、使用方法は限られており、包括性が欠如している。
これに対し,長文モデルの安全性を客観的かつ包括的に評価する最初のベンチマークである \textbf{LongSafetyBench} を導入する。
LongSafetyBenchは10のタスクカテゴリで構成され、平均長は41,889ワードである。
LongSafetyBenchで8つの長文言語モデルをテストした結果、既存のモデルでは安全性が不十分であることが判明した。
ほとんどのLLMの安全応答の割合は50%以下である。
さらに、長文シナリオにおけるモデルの安全性性能は、短文シナリオでは必ずしもそれと一致しない。
さらなる調査により、長文モデルは長文中の有害な内容を見落としてしまう傾向があることが明らかになった。
我々はまた、オープンソースモデルがトップレベルのクローズドソースモデルに匹敵するパフォーマンスを達成するための、シンプルで効果的なソリューションを提案しました。
long-context言語モデルの安全性を評価する上で,LongSafetyBenchは貴重なベンチマークになると考えています。
我々は,長文モデルの安全性に注意を払って,長文LLMの安全性を改善するためのソリューションの開発に貢献することを願っている。
関連論文リスト
- How Effective Is Self-Consistency for Long-Context Problems? [18.633918831942434]
大規模言語モデル(LLM)の性能向上のために,自己整合性(SC)が実証されている。
本研究では,LLMが位置バイアスに苦しむ長文シナリオにおけるSCの役割について検討した。
論文 参考訳(メタデータ) (2024-11-02T01:52:42Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Exploring Advanced Methodologies in Security Evaluation for LLMs [16.753146059652877]
大規模言語モデル(LLM)は、初期のより単純な言語モデルの進化を象徴する。
複雑な言語パターンを処理し、一貫性のあるテキスト、画像、オーディオ、ビデオを生成する能力が強化されている。
LLMの急速な拡大は、学術コミュニティ内のセキュリティと倫理的懸念を提起している。
論文 参考訳(メタデータ) (2024-02-28T01:32:58Z) - Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。
LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。