論文の概要: SAFETY-J: Evaluating Safety with Critique
- arxiv url: http://arxiv.org/abs/2407.17075v3
- Date: Tue, 13 Aug 2024 10:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 21:54:47.266533
- Title: SAFETY-J: Evaluating Safety with Critique
- Title(参考訳): SAFETY-J:批判による安全性の評価
- Authors: Yixiu Liu, Yuxiang Zheng, Shijie Xia, Jiajun Li, Yi Tu, Chaoling Song, Pengfei Liu,
- Abstract要約: SAFETY-Jは、英語と中国語のための二言語生成安全評価器であり、批判に基づく判断である。
人間の介入を最小限に抑えて批評の質を客観的に評価する自動メタ評価ベンチマークを構築した。
SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
- 参考スコア(独自算出の注目度): 24.723999605458832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Large Language Models (LLMs) in content generation raises significant safety concerns, particularly regarding the transparency and interpretability of content evaluations. Current methods, primarily focused on binary safety classifications, lack mechanisms for detailed critique, limiting their utility for model improvement and user trust. To address these limitations, we introduce SAFETY-J, a bilingual generative safety evaluator for English and Chinese with critique-based judgment. SAFETY-J utilizes a robust training dataset that includes diverse dialogues and augmented query-response pairs to assess safety across various scenarios comprehensively. We establish an automated meta-evaluation benchmark that objectively assesses the quality of critiques with minimal human intervention, facilitating scalable and continuous improvement. Additionally, SAFETY-J employs an iterative preference learning technique to dynamically refine safety assessments based on meta-evaluations and critiques. Our evaluations demonstrate that SAFETY-J provides more nuanced and accurate safety evaluations, thereby enhancing both critique quality and predictive reliability in complex content scenarios. To facilitate further research and application, we open-source SAFETY-J's training protocols, datasets, and code at https://github.com/GAIR-NLP/Safety-J.
- Abstract(参考訳): コンテンツ生成におけるLLM(Large Language Models)の展開は、特にコンテンツ評価の透明性と解釈可能性に関して、重要な安全性上の懸念を提起する。
現在の方法は、主に二元的安全性の分類に焦点を当てており、詳細な批判のためのメカニズムが欠如しており、モデルの改善とユーザ信頼のための実用性を制限している。
これらの制約に対処するために、批判に基づく判断を伴う英語と中国語のバイリンガル生成安全評価器であるSAFETY-Jを紹介する。
SAFETY-Jは、多様な対話と拡張されたクエリ応答ペアを含む堅牢なトレーニングデータセットを使用して、さまざまなシナリオの安全性を総合的に評価する。
我々は,人間の介入を最小限に抑えて批評の質を客観的に評価し,スケーラブルで継続的な改善を促進する自動メタ評価ベンチマークを確立する。
さらに、SAFETY-Jはメタ評価や批判に基づいて安全性評価を動的に洗練するために反復的な選好学習技術を採用している。
SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
SAFETY-Jのトレーニングプロトコル、データセット、コードをhttps://github.com/GAIR-NLP/Safety-Jでオープンソース化しました。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Safety design concepts for statistical machine learning components
toward accordance with functional safety standards [0.38073142980732994]
近年,統計機械学習の誤判定により,キュリアルな事故や事故が報告されている。
本稿では,機能安全基準に従って,コンポーネントに対する5種類の技術安全概念(TSC)を整理する。
論文 参考訳(メタデータ) (2020-08-04T01:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。