論文の概要: Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations
- arxiv url: http://arxiv.org/abs/2404.09785v1
- Date: Mon, 15 Apr 2024 13:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:07:08.339057
- Title: Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations
- Title(参考訳): Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations
- Authors: David Nadeau, Mike Kroutikov, Karen McNeil, Simon Baribeau,
- Abstract要約: 本稿では,エンタープライズタスクの文脈における大規模言語モデルの安全性評価のための新しい14のデータセットを紹介する。
モデルの安全性を評価するために考案された手法は、指示に従う能力と、事実、偏見のない、根拠のない、適切なコンテンツを出力する能力によって決定される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces fourteen novel datasets for the evaluation of Large Language Models' safety in the context of enterprise tasks. A method was devised to evaluate a model's safety, as determined by its ability to follow instructions and output factual, unbiased, grounded, and appropriate content. In this research, we used OpenAI GPT as point of comparison since it excels at all levels of safety. On the open-source side, for smaller models, Meta Llama2 performs well at factuality and toxicity but has the highest propensity for hallucination. Mistral hallucinates the least but cannot handle toxicity well. It performs well in a dataset mixing several tasks and safety vectors in a narrow vertical domain. Gemma, the newly introduced open-source model based on Google Gemini, is generally balanced but trailing behind. When engaging in back-and-forth conversation (multi-turn prompts), we find that the safety of open-source models degrades significantly. Aside from OpenAI's GPT, Mistral is the only model that still performed well in multi-turn tests.
- Abstract(参考訳): 本稿では,エンタープライズタスクの文脈における大規模言語モデルの安全性評価のための新しい14のデータセットを紹介する。
モデルの安全性を評価するために考案された手法は、指示に従う能力と、事実、偏見のない、根拠のない、適切なコンテンツを出力する能力によって決定される。
本研究では,OpenAI GPTをあらゆるレベルの安全性に優れており,比較点として用いた。
オープンソース側では、より小さなモデルでは、Meta Llama2は実効性と毒性が良いが、幻覚の確率が最も高い。
ミストラールは最小限の幻覚を与えるが、毒性をうまく扱えない。
狭い垂直領域において、いくつかのタスクと安全ベクトルを混合したデータセットでうまく機能する。
Google Geminiをベースとした新しいオープンソースモデルであるGemmaは、一般的にバランスを取っているが、後を追っている。
バック・アンド・フォースな会話(マルチ・ターンのプロンプト)を行う場合、オープンソースモデルの安全性は著しく低下する。
OpenAIのGPTとは別に、マルチターンテストでまだうまく機能しているモデルはMistralのみである。
関連論文リスト
- ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - MetaCheckGPT -- A Multi-task Hallucination Detector Using LLM Uncertainty and Meta-models [8.322071110929338]
本稿では,モデル非依存トラックとモデル認識トラックの2つのサブタスクにおいて,勝利解をそれぞれ1位と2位にランク付けした。
モデル評価と統合のためのLCMのメタレグレクタフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T11:56:01Z) - Gemma: Open Models Based on Gemini Research and Technology [128.57714343844074]
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。
Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-13T06:59:16Z) - Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt
Templates [59.0123809721502]
本稿では、安全プロンプトを使わずに、テスト時に組み込む"Pure Tuning, Safe Testing"(PTST)の原則を提案する。
GSM8K、ChatDoctor、OpenOrcaの微調整実験は、PTSTが安全でない振る舞いの増大を著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-02-28T18:23:49Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。