論文の概要: SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety
- arxiv url: http://arxiv.org/abs/2404.05399v1
- Date: Mon, 8 Apr 2024 10:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:32:03.685501
- Title: SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety
- Title(参考訳): SafetyPrompts:大規模言語モデルの安全性評価と改善のためのオープンデータセットの体系的レビュー
- Authors: Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy,
- Abstract要約: 我々は、大規模言語モデル(LLM)の安全性を評価し改善するためのオープンデータセットの最初の体系的なレビューを行う。
完全な合成データセットへのトレンドや、非英語データセットの明確な欠如など、データセットカバレッジのギャップといったトレンドを強調します。
当社のコントリビューションは,LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comに基づいています。
- 参考スコア(独自算出の注目度): 27.843894102000608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The last two years have seen a rapid growth in concerns around the safety of large language models (LLMs). Researchers and practitioners have met these concerns by introducing an abundance of new datasets for evaluating and improving LLM safety. However, much of this work has happened in parallel, and with very different goals in mind, ranging from the mitigation of near-term risks around bias and toxic content generation to the assessment of longer-term catastrophic risk potential. This makes it difficult for researchers and practitioners to find the most relevant datasets for a given use case, and to identify gaps in dataset coverage that future work may fill. To remedy these issues, we conduct a first systematic review of open datasets for evaluating and improving LLM safety. We review 102 datasets, which we identified through an iterative and community-driven process over the course of several months. We highlight patterns and trends, such as a a trend towards fully synthetic datasets, as well as gaps in dataset coverage, such as a clear lack of non-English datasets. We also examine how LLM safety datasets are used in practice -- in LLM release publications and popular LLM benchmarks -- finding that current evaluation practices are highly idiosyncratic and make use of only a small fraction of available datasets. Our contributions are based on SafetyPrompts.com, a living catalogue of open datasets for LLM safety, which we commit to updating continuously as the field of LLM safety develops.
- Abstract(参考訳): 過去2年間、大きな言語モデル(LLM)の安全性に関する懸念が急速に高まっている。
研究者や実践者は、LSMの安全性を評価し改善するための新しいデータセットを多数導入することで、これらの懸念に対処してきた。
しかし、これらの研究の多くは平行して行われており、バイアスや有毒なコンテンツ生成に関する短期的リスクの軽減から、長期的な破滅的なリスクポテンシャルの評価まで、非常に異なる目標を念頭に置いている。
これにより、研究者や実践者が特定のユースケースに最も関連性の高いデータセットを見つけ、将来の作業が満たすデータセットカバレッジのギャップを特定するのが難しくなる。
これらの問題を解決するために,LLMの安全性を評価し改善するためのオープンデータセットの体系的レビューを行う。
我々は、数ヶ月にわたって反復的でコミュニティ主導のプロセスを通じて特定した102のデータセットをレビューした。
完全な合成データセットへのトレンドや、非英語データセットの明確な欠如など、データセットカバレッジのギャップなど、パターンとトレンドを強調します。
LLMリリースのパブリッシュや人気のあるLLMベンチマークにおいて、現在の評価プラクティスは極めて慣用的であり、利用可能なデータセットのごく一部しか使用していないことを発見した。
LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comをベースとしており、LLM安全性の分野が発展するにつれて、継続的に更新することを約束しています。
関連論文リスト
- Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
LLM2LLMは、教師のLLMを使用して、特定のタスクの微調整に使用できる追加データを追加することで、小さなシードデータセットを強化する。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Exploring Advanced Methodologies in Security Evaluation for LLMs [16.753146059652877]
大規模言語モデル(LLM)は、初期のより単純な言語モデルの進化を象徴する。
複雑な言語パターンを処理し、一貫性のあるテキスト、画像、オーディオ、ビデオを生成する能力が強化されている。
LLMの急速な拡大は、学術コミュニティ内のセキュリティと倫理的懸念を提起している。
論文 参考訳(メタデータ) (2024-02-28T01:32:58Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - On Learning to Summarize with Large Language Models as References [105.62615205746106]
本研究では,大規模言語モデル(LLM)を,データセット上のゴールドスタンダード・オラクルの参照あるいは参照とみなす新たな学習環境について検討する。
CNN/DailyMailおよびXSumデータセットの実験では、より小さな要約モデルがLLMと同等のパフォーマンスを達成できることが示されている。
しかし,人間による評価では,小型モデルではLLMレベルに到達できないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。