Fugu-MT 論文翻訳(概要): BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

論文の概要: BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

arxiv url: http://arxiv.org/abs/2307.04657v3
Date: Tue, 7 Nov 2023 03:24:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 19:18:21.303295
Title: BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset
Title（参考訳）: BeaverTails: ヒューマンパラメータデータセットによるLCMの安全性向上を目指して
Authors: Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang
Abstract要約: BeaverTailsデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進することを目的としている 333,963組の質問回答(QA)と361,903組の専門家比較データを収集した。
参考スコア（独自算出の注目度）: 20.77753605374455
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce the BeaverTails dataset, aimed at fostering research on safety alignment in large language models (LLMs). This dataset uniquely separates annotations of helpfulness and harmlessness for question-answering pairs, thus offering distinct perspectives on these crucial attributes. In total, we have gathered safety meta-labels for 333,963 question-answer (QA) pairs and 361,903 pairs of expert comparison data for both the helpfulness and harmlessness metrics. We further showcase applications of BeaverTails in content moderation and reinforcement learning with human feedback (RLHF), emphasizing its potential for practical safety measures in LLMs. We believe this dataset provides vital resources for the community, contributing towards the safe development and deployment of LLMs. Our project page is available at the following URL: https://sites.google.com/view/pku-beavertails.
Abstract（参考訳）: 本稿では,大規模言語モデル(llm)における安全性アライメント研究の促進を目的としたbeavertailsデータセットを提案する。このデータセットは、質問応答ペアの有益さと無害さのアノテーションを一意に分離するので、これらの重要な属性に対する明確な視点を提供する。 333,963対のq&a(q&a)と361,903対の専門家比較データに対する安全性メタラベルを収集した。さらに,人間のフィードバックによるコンテンツモデレーションと強化学習(RLHF)におけるBeaverTailsの応用について紹介し,LLMにおける実用的安全対策の可能性を強調した。このデータセットはコミュニティに重要なリソースを提供し、LLMの安全な開発とデプロイに寄与すると考えています。私たちのプロジェクトページは以下のURLで利用可能です。

関連論文リスト

Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models [34.66687625996389]
汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。安全性と安全性を共同で最適化する,初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。
論文参考訳（メタデータ） (2025-03-22T07:40:20Z)
Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models [24.168387024091082]
人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。微調整プロセスを通して安全性を維持することは、依然として大きな課題である。トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T08:40:30Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset [4.522849055040843]
この研究は、Helpful and Harmless データセットを Anthropic で監査した。本研究は,大規模言語モデルにおける安全性軽減のための,よりニュアンスで文脈に敏感なアプローチの必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-11-12T23:43:20Z)
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-27T17:31:21Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文参考訳（メタデータ） (2024-06-20T18:37:36Z)
Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets [24.32901991469196]
本稿では,利幅拡大された選好データセット開発を促進するための効果的で費用効率のよいフレームワークを提案する。我々のフレームワークであるRegend, Leverages表現エンジニアリングは、好みのデータセットに注釈を付ける。 LLMに対する報酬モデリングと無害アライメントの両面での有効性を実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T12:06:32Z)
AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文参考訳（メタデータ） (2024-04-09T03:54:28Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。 ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文参考訳（メタデータ） (2024-02-26T09:43:02Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。