論文の概要: DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models
- arxiv url: http://arxiv.org/abs/2306.11698v2
- Date: Mon, 11 Dec 2023 01:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:46:09.262017
- Title: DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models
- Title(参考訳): DecodingTrust: GPTモデルにおける信頼性の総合評価
- Authors: Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang,
Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T.
Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng,
Sanmi Koyejo, Dawn Song, Bo Li
- Abstract要約: 本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
- 参考スコア(独自算出の注目度): 92.6951708781736
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative Pre-trained Transformer (GPT) models have exhibited exciting
progress in their capabilities, capturing the interest of practitioners and the
public alike. Yet, while the literature on the trustworthiness of GPT models
remains limited, practitioners have proposed employing capable GPT models for
sensitive applications such as healthcare and finance -- where mistakes can be
costly. To this end, this work proposes a comprehensive trustworthiness
evaluation for large language models with a focus on GPT-4 and GPT-3.5,
considering diverse perspectives -- including toxicity, stereotype bias,
adversarial robustness, out-of-distribution robustness, robustness on
adversarial demonstrations, privacy, machine ethics, and fairness. Based on our
evaluations, we discover previously unpublished vulnerabilities to
trustworthiness threats. For instance, we find that GPT models can be easily
misled to generate toxic and biased outputs and leak private information in
both training data and conversation history. We also find that although GPT-4
is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more
vulnerable given jailbreaking system or user prompts, potentially because GPT-4
follows (misleading) instructions more precisely. Our work illustrates a
comprehensive trustworthiness evaluation of GPT models and sheds light on the
trustworthiness gaps. Our benchmark is publicly available at
https://decodingtrust.github.io/. Additionally, our dataset can be previewed at
https://huggingface.co/datasets/AI-Secure/DecodingTrust, and a concise version
of our DecodingTrust is accessible at https://openreview.net/pdf?id=kaHpo8OZw2.
- Abstract(参考訳): ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルは、実践者や一般大衆の関心を捉えながら、その能力にエキサイティングな進歩を見せている。
しかし、GPTモデルの信頼性に関する文献は依然として限られているが、医療や金融といった繊細なアプリケーションに有能なGPTモデルを採用することを提案した。
本研究は,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案し,有害性,ステレオタイプバイアス,敵対的堅牢性,アウト・オブ・ディストリビューションの堅牢性,敵的デモンストレーションに対する堅牢性,プライバシ,マシン倫理,公正性など,さまざまな観点から考察する。
評価の結果,信頼の脅威に対する未公表の脆弱性が発見された。
例えば、GPTモデルは、有毒で偏りのある出力を生成し、トレーニングデータと会話履歴の両方のプライベート情報を漏らすために、容易に誤解される。
また、GPT-4は標準ベンチマークではGPT-3.5よりも信頼性が高いが、GPT-4はJailbreakingシステムやユーザプロンプトにより脆弱である。
我々の研究は、GPTモデルの総合的信頼性評価を示し、信頼性のギャップに光を当てている。
私たちのベンチマークはhttps://decodingtrust.github.io/で公開されています。
さらに、データセットはhttps://huggingface.co/datasets/AI-Secure/DecodingTrustでプレビューできます。
id=kaHpo8OZw2。
関連論文リスト
- Granting GPT-4 License and Opportunity: Enhancing Accuracy and Confidence Estimation for Few-Shot Event Detection [6.718542027371254]
大規模言語モデル(LLM)は、"銀"データの生成に使用を提案するために、数ショットの学習コンテキストで十分な可能性を示している。
信頼度推定は、GPT-4のようなモデルの弱点を文書化したものである。
本研究は,車両としてのBETTERライセンスにおけるイベント検出のための少数ショット学習によるGPT-4による効果的な信頼度推定手法について検討する。
論文 参考訳(メタデータ) (2024-08-01T21:08:07Z) - Detect Llama -- Finding Vulnerabilities in Smart Contracts using Large Language Models [27.675558033502565]
我々は、スマートコントラクト脆弱性検出において、GPT-4より優れたオープンソースモデルを微調整する。
バイナリ分類(つまり、このスマートコントラクトは脆弱か?)では、GPT-3.5FTとTect Llama-Foundationという2つの最高のパフォーマンスモデルがF1スコアを達成しています。
GPT-3.5FT と Detect Llama - Foundation はいずれも GPT-4 と GPT-4 Turbo を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-12T03:33:13Z) - Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。
新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。
既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文 参考訳(メタデータ) (2024-06-10T14:18:56Z) - Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models [20.92843974858305]
GPTモデルはタスク最適化にますます利用されている。
本稿では,直接的かつ強力な会話再構築攻撃について紹介する。
過去の会話の再構築をめざした2つの先進的な攻撃を提示する。
論文 参考訳(メタデータ) (2024-02-05T13:18:42Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - A negation detection assessment of GPTs: analysis with the xNot360
dataset [9.165119034384027]
否定は自然言語の基本的側面であり、コミュニケーションと理解において重要な役割を果たす。
我々は,xNot360データセットに適用したゼロショット予測手法を用いて,自然言語における否定の識別に焦点を当てた。
GPT-4はGPT-3.5を上回り,GPT-3.5は顕著な性能低下を示した。
論文 参考訳(メタデータ) (2023-06-29T02:27:48Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。