論文の概要: LongSafety: Enhance Safety for Long-Context LLMs
- arxiv url: http://arxiv.org/abs/2411.06899v2
- Date: Thu, 27 Feb 2025 13:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:18.933979
- Title: LongSafety: Enhance Safety for Long-Context LLMs
- Title(参考訳): LongSafety:Long-Context LLMの安全性を高める
- Authors: Mianqiu Huang, Xiaoran Liu, Shaojun Zhou, Mozhi Zhang, Qipeng Guo, Linyang Li, Chenkun Tan, Yang Gao, Pengyu Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xipeng Qiu, Xuanjing Huang,
- Abstract要約: 長文言語モデル(LLM)のための安全アライメントデータセットである textbfLongSafety を導入する。
実験により,LongSafetyを用いたトレーニングは,短文安全性を向上し,汎用性を保ちながら,長文安全性を向上できることが示された。
- 参考スコア(独自算出の注目度): 85.52121220707822
- License:
- Abstract: Recent advancements in model architectures and length extrapolation techniques have significantly extended the context length of large language models (LLMs), paving the way for their application in increasingly complex tasks. However, despite the growing capabilities of long-context LLMs, the safety issues in long-context scenarios remain underexplored. While safety alignment in short context has been widely studied, the safety concerns of long-context LLMs have not been adequately addressed. In this work, we introduce \textbf{LongSafety}, a comprehensive safety alignment dataset for long-context LLMs, containing 10 tasks and 17k samples, with an average length of 40.9k tokens. Our experiments demonstrate that training with LongSafety can enhance long-context safety performance while enhancing short-context safety and preserving general capabilities. Furthermore, we demonstrate that long-context safety does not equal long-context alignment with short-context safety data and LongSafety has generalizing capabilities in context length and long-context safety scenarios.
- Abstract(参考訳): モデルアーキテクチャの最近の進歩と長さ補間技術は、大規模言語モデル(LLM)のコンテキスト長を大幅に拡張し、ますます複雑なタスクにおけるそれらの応用の道を開いた。
しかし、長文LLMの能力の増大にもかかわらず、長文シナリオの安全性の問題はまだ未解決のままである。
短い文脈での安全性のアライメントは広く研究されているが、LLMの安全性に関する懸念は十分に解決されていない。
本研究では,10のタスクと17kのサンプルを含む長期LLMの包括的安全アライメントデータセットである \textbf{LongSafety} について紹介する。
実験により,LongSafetyを用いたトレーニングは,短文安全性を向上し,汎用性を保ちながら,長文安全性を向上できることが示された。
さらに,長文安全性と短文安全性データとの長文アライメントが一致せず,LongSafetyはコンテキスト長および長文安全性シナリオの一般化機能を有することを示す。
関連論文リスト
- Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-22T10:01:54Z) - How Effective Is Self-Consistency for Long-Context Problems? [18.633918831942434]
大規模言語モデル(LLM)の性能向上のために,自己整合性(SC)が実証されている。
本研究では,LLMが位置バイアスに苦しむ長文シナリオにおけるSCの役割について検討した。
論文 参考訳(メタデータ) (2024-11-02T01:52:42Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Exploring Advanced Methodologies in Security Evaluation for LLMs [16.753146059652877]
大規模言語モデル(LLM)は、初期のより単純な言語モデルの進化を象徴する。
複雑な言語パターンを処理し、一貫性のあるテキスト、画像、オーディオ、ビデオを生成する能力が強化されている。
LLMの急速な拡大は、学術コミュニティ内のセキュリティと倫理的懸念を提起している。
論文 参考訳(メタデータ) (2024-02-28T01:32:58Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。