論文の概要: LongSafety: Evaluating Long-Context Safety of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.16971v1
- Date: Mon, 24 Feb 2025 08:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:20.292755
- Title: LongSafety: Evaluating Long-Context Safety of Large Language Models
- Title(参考訳): LongSafety: 大規模言語モデルの長期的安全性を評価する
- Authors: Yida Lu, Jiale Cheng, Zhexin Zhang, Shiyao Cui, Cunxiang Wang, Xiaotao Gu, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang,
- Abstract要約: LongSafetyは、オープンエンドのロングコンテキストタスクの安全性を評価するために設計された最初のベンチマークである。
評価の結果,安全性の重大な脆弱性が明らかとなり,ほとんどのモデルが55%未満の安全性を達成できた。
本研究は,長期間の安全性向上の難しさと緊急性を強調した。
- 参考スコア(独自算出の注目度): 95.2469116388522
- License:
- Abstract: As Large Language Models (LLMs) continue to advance in understanding and generating long sequences, new safety concerns have been introduced through the long context. However, the safety of LLMs in long-context tasks remains under-explored, leaving a significant gap in both evaluation and improvement of their safety. To address this, we introduce LongSafety, the first comprehensive benchmark specifically designed to evaluate LLM safety in open-ended long-context tasks. LongSafety encompasses 7 categories of safety issues and 6 user-oriented long-context tasks, with a total of 1,543 test cases, averaging 5,424 words per context. Our evaluation towards 16 representative LLMs reveals significant safety vulnerabilities, with most models achieving safety rates below 55%. Our findings also indicate that strong safety performance in short-context scenarios does not necessarily correlate with safety in long-context tasks, emphasizing the unique challenges and urgency of improving long-context safety. Moreover, through extensive analysis, we identify challenging safety issues and task types for long-context models. Furthermore, we find that relevant context and extended input sequences can exacerbate safety risks in long-context scenarios, highlighting the critical need for ongoing attention to long-context safety challenges. Our code and data are available at https://github.com/thu-coai/LongSafety.
- Abstract(参考訳): 大きな言語モデル(LLM)は長いシーケンスの理解と生成の進歩を続けており、長いコンテキストを通じて新たな安全上の懸念がもたらされている。
しかし,長期作業におけるLLMの安全性は未探索のままであり,安全性評価と改善の両面で大きなギャップが残されている。
この問題を解決するために、LongSafetyは、オープンエンドの長文タスクにおけるLLMの安全性を評価するために設計された最初の包括的なベンチマークである。
LongSafetyには7つのカテゴリの安全問題と6つのユーザ指向の長期コンテキストタスクが含まれており、合計1,543のテストケースがあり、コンテキストあたり平均で5,424語である。
16のLLMに対する評価では,安全性の重大な脆弱性が示され,ほとんどのモデルが55%未満の安全性を達成している。
また, 短文シナリオにおける安全性性能は, 長文タスクにおける安全性と必ずしも相関しないことを示すとともに, 短文シナリオにおける安全性向上の難しさと難易度を強調した。
さらに, 広範囲な分析により, 長期コンテキストモデルにおいて, 課題となる安全問題やタスクタイプを特定する。
さらに、関連するコンテキストと拡張された入力シーケンスは、長期コンテキストのシナリオにおける安全性リスクを悪化させ、長期コンテキストの安全性課題に対する継続的な注意の欠如を浮き彫りにする。
私たちのコードとデータはhttps://github.com/thu-coai/LongSafety.comで公開されています。
関連論文リスト
- LongSafetyBench: Long-Context LLMs Struggle with Safety Issues [83.75506157823517]
長文言語モデルは安全上の懸念を示すことができる。
ほとんどの主流の長文モデルからの安全な応答の割合は50%以下である。
LongSafetyBenchは、長期コンテキスト言語モデルの安全性機能を評価するための貴重なベンチマークとして機能する。
論文 参考訳(メタデータ) (2024-11-11T11:57:37Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack [20.551730528019338]
メインストリームNLPタスクは安全配慮に適切に適合しているか?
本研究は, 各種NLPタスクの安全性の相違について明らかにした。
セキュリティアライメントの弱いタスクを悪用するアタックは、従来より堅牢と考えられていたタスクの整合性を損なう可能性がある。
論文 参考訳(メタデータ) (2023-12-12T01:39:29Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。