論文の概要: SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety
- arxiv url: http://arxiv.org/abs/2404.05399v1
- Date: Mon, 8 Apr 2024 10:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:32:03.685501
- Title: SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety
- Title(参考訳): SafetyPrompts:大規模言語モデルの安全性評価と改善のためのオープンデータセットの体系的レビュー
- Authors: Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy,
- Abstract要約: 我々は、大規模言語モデル(LLM)の安全性を評価し改善するためのオープンデータセットの最初の体系的なレビューを行う。
完全な合成データセットへのトレンドや、非英語データセットの明確な欠如など、データセットカバレッジのギャップといったトレンドを強調します。
当社のコントリビューションは,LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comに基づいています。
- 参考スコア(独自算出の注目度): 27.843894102000608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The last two years have seen a rapid growth in concerns around the safety of large language models (LLMs). Researchers and practitioners have met these concerns by introducing an abundance of new datasets for evaluating and improving LLM safety. However, much of this work has happened in parallel, and with very different goals in mind, ranging from the mitigation of near-term risks around bias and toxic content generation to the assessment of longer-term catastrophic risk potential. This makes it difficult for researchers and practitioners to find the most relevant datasets for a given use case, and to identify gaps in dataset coverage that future work may fill. To remedy these issues, we conduct a first systematic review of open datasets for evaluating and improving LLM safety. We review 102 datasets, which we identified through an iterative and community-driven process over the course of several months. We highlight patterns and trends, such as a a trend towards fully synthetic datasets, as well as gaps in dataset coverage, such as a clear lack of non-English datasets. We also examine how LLM safety datasets are used in practice -- in LLM release publications and popular LLM benchmarks -- finding that current evaluation practices are highly idiosyncratic and make use of only a small fraction of available datasets. Our contributions are based on SafetyPrompts.com, a living catalogue of open datasets for LLM safety, which we commit to updating continuously as the field of LLM safety develops.
- Abstract(参考訳): 過去2年間、大きな言語モデル(LLM)の安全性に関する懸念が急速に高まっている。
研究者や実践者は、LSMの安全性を評価し改善するための新しいデータセットを多数導入することで、これらの懸念に対処してきた。
しかし、これらの研究の多くは平行して行われており、バイアスや有毒なコンテンツ生成に関する短期的リスクの軽減から、長期的な破滅的なリスクポテンシャルの評価まで、非常に異なる目標を念頭に置いている。
これにより、研究者や実践者が特定のユースケースに最も関連性の高いデータセットを見つけ、将来の作業が満たすデータセットカバレッジのギャップを特定するのが難しくなる。
これらの問題を解決するために,LLMの安全性を評価し改善するためのオープンデータセットの体系的レビューを行う。
我々は、数ヶ月にわたって反復的でコミュニティ主導のプロセスを通じて特定した102のデータセットをレビューした。
完全な合成データセットへのトレンドや、非英語データセットの明確な欠如など、データセットカバレッジのギャップなど、パターンとトレンドを強調します。
LLMリリースのパブリッシュや人気のあるLLMベンチマークにおいて、現在の評価プラクティスは極めて慣用的であり、利用可能なデータセットのごく一部しか使用していないことを発見した。
LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comをベースとしており、LLM安全性の分野が発展するにつれて、継続的に更新することを約束しています。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - HARMONIC: Harnessing LLMs for Tabular Data Synthesis and Privacy Protection [44.225151701532454]
本稿では,表データ生成と評価のための新しいフレームワークHARMONICを提案する。
本フレームワークは, 既存の手法と同等の性能を向上し, また, 合成データの有効性とプライバシーリスクを評価するための評価枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-06T03:21:13Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。