論文の概要: BeaverTails: Towards Improved Safety Alignment of LLM via a
Human-Preference Dataset
- arxiv url: http://arxiv.org/abs/2307.04657v1
- Date: Mon, 10 Jul 2023 15:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:32:27.824748
- Title: BeaverTails: Towards Improved Safety Alignment of LLM via a
Human-Preference Dataset
- Title(参考訳): BeaverTails: ヒューマンパラメータデータセットによるLCMの安全性向上を目指して
- Authors: Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian,
Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang
- Abstract要約: BeaverTailsデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進することを目的としている
安全メタラベルを30,207対の質問回答(QA)にまとめ,有益度と無害度の両方について30,144対の専門家比較データを収集した。
- 参考スコア(独自算出の注目度): 16.471182546018678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the BeaverTails dataset, aimed at fostering
research on safety alignment in large language models (LLMs). This dataset
uniquely separates annotations of helpfulness and harmlessness for
question-answering pairs, thus offering distinct perspectives on these crucial
attributes. In total, we have compiled safety meta-labels for 30,207
question-answer (QA) pairs and gathered 30,144 pairs of expert comparison data
for both the helpfulness and harmlessness metrics. We further showcase
applications of BeaverTails in content moderation and reinforcement learning
with human feedback (RLHF), emphasizing its potential for practical safety
measures in LLMs. We believe this dataset provides vital resources for the
community, contributing towards the safe development and deployment of LLMs.
Our project page is available at the following URL:
https://sites.google.com/view/pku-beavertails.
- Abstract(参考訳): 本稿では,大規模言語モデル(llm)における安全性アライメント研究の促進を目的としたbeavertailsデータセットを提案する。
このデータセットは、質問応答ペアの有益さと無害さのアノテーションを一意に分離するので、これらの重要な属性に対する明確な視点を提供する。
30,207対のq&a(q&a)に対して安全メタラベルをコンパイルし,30,144対の専門家比較データを収集した。
さらに,人間のフィードバックによるコンテンツモデレーションと強化学習(RLHF)におけるBeaverTailsの応用について紹介し,LLMにおける実用的安全対策の可能性を強調した。
このデータセットはコミュニティに重要なリソースを提供し、LLMの安全な開発とデプロイに寄与すると考えています。
私たちのプロジェクトページは以下のURLで利用可能です。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。
全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文 参考訳(メタデータ) (2024-06-20T18:37:36Z) - Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets [24.32901991469196]
本稿では,利幅拡大された選好データセット開発を促進するための効果的で費用効率のよいフレームワークを提案する。
我々のフレームワークであるRegend, Leverages表現エンジニアリングは、好みのデータセットに注釈を付ける。
LLMに対する報酬モデリングと無害アライメントの両面での有効性を実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T12:06:32Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety [27.843894102000608]
我々は、大規模言語モデル(LLM)の安全性を評価し改善するためのオープンデータセットの最初の体系的なレビューを行う。
完全な合成データセットへのトレンドや、非英語データセットの明確な欠如など、データセットカバレッジのギャップといったトレンドを強調します。
当社のコントリビューションは,LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comに基づいています。
論文 参考訳(メタデータ) (2024-04-08T10:57:25Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。