論文の概要: BeaverTails: Towards Improved Safety Alignment of LLM via a
Human-Preference Dataset
- arxiv url: http://arxiv.org/abs/2307.04657v2
- Date: Sun, 29 Oct 2023 14:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:49:41.530843
- Title: BeaverTails: Towards Improved Safety Alignment of LLM via a
Human-Preference Dataset
- Title(参考訳): BeaverTails: ヒューマンパラメータデータセットによるLCMの安全性向上を目指して
- Authors: Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian,
Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang
- Abstract要約: 本稿では,大規模言語モデル(LLM)における安全性アライメント研究の促進を目的としたtextscBeaverTailsデータセットを紹介する。
安全メタラベルを30,207対の質問回答(QA)と30,144対の専門家比較データを収集した。
- 参考スコア(独自算出の注目度): 20.77753605374455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the \textsc{BeaverTails} dataset, aimed at
fostering research on safety alignment in large language models (LLMs). This
dataset uniquely separates annotations of helpfulness and harmlessness for
question-answering pairs, thus offering distinct perspectives on these crucial
attributes. In total, we have gathered safety meta-labels for 30,207
question-answer (QA) pairs and 30,144 pairs of expert comparison data for both
the helpfulness and harmlessness metrics. In total, we have gathered safety
meta-labels for 333,963 question-answer (QA) pairs and 361,903 pairs of expert
comparison data for both the helpfulness and harmlessness metrics. We further
showcase applications of BeaverTails in content moderation and reinforcement
learning with human feedback (RLHF), emphasizing its potential for practical
safety measures in LLMs. We believe this dataset provides vital resources for
the community, contributing towards the safe development and deployment of
LLMs. Our project page is available at the following URL:
https://sites.google.com/view/pku-beavertails.
Warning: this paper contains example data that may be offensive or harmful.
- Abstract(参考訳): 本稿では,大規模言語モデル(llms)における安全性アライメント研究の促進を目的とした, \textsc{beavertails}データセットを提案する。
このデータセットは、質問応答ペアの有益さと無害さのアノテーションを一意に分離するので、これらの重要な属性に対する明確な視点を提供する。
30,207対のq&a(qa)と30,144対の専門家比較データに対する安全性メタラベルを収集した。
333,963対のq&a(q&a)と361,903対の専門家比較データに対する安全性メタラベルを収集した。
さらに,人間のフィードバックによるコンテンツモデレーションと強化学習(RLHF)におけるBeaverTailsの応用について紹介し,LLMにおける実用的安全対策の可能性を強調した。
このデータセットはコミュニティに重要なリソースを提供し、LLMの安全な開発とデプロイに寄与すると考えています。
私たちのプロジェクトページは以下のURLで利用可能です。
警告: 攻撃的あるいは有害である可能性のあるサンプルデータを含む。
関連論文リスト
- Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset [4.522849055040843]
この研究は、Helpful and Harmless データセットを Anthropic で監査した。
本研究は,大規模言語モデルにおける安全性軽減のための,よりニュアンスで文脈に敏感なアプローチの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-12T23:43:20Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。
全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文 参考訳(メタデータ) (2024-06-20T18:37:36Z) - Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets [24.32901991469196]
本稿では,利幅拡大された選好データセット開発を促進するための効果的で費用効率のよいフレームワークを提案する。
我々のフレームワークであるRegend, Leverages表現エンジニアリングは、好みのデータセットに注釈を付ける。
LLMに対する報酬モデリングと無害アライメントの両面での有効性を実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T12:06:32Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。