Fugu-MT 論文翻訳(概要): DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

論文の概要: DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models

arxiv url: http://arxiv.org/abs/2306.11698v1
Date: Tue, 20 Jun 2023 17:24:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 13:15:42.978450
Title: DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models
Title（参考訳）: DecodingTrust: GPTモデルにおける信頼性の総合評価
Authors: Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li
Abstract要約: 本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。評価の結果,信頼感の脅威に対する未公表の脆弱性が判明した。
参考スコア（独自算出の注目度）: 76.82889278486184
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications to healthcare and finance - where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives - including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially due to the reason that GPT-4 follows the (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/.
Abstract（参考訳）: ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルは、実践者や一般大衆の関心を捉えながら、能力のエキサイティングな進歩を見せている。しかし、GPTモデルの信頼性に関する文献は依然として限られているが、医療やファイナンスへの敏感な応用に有能なGPTモデルを採用することを提案した。本研究は, GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案し, 毒性, ステレオタイプバイアス, 敵意的堅牢性, 分布外堅牢性, 敵意的実証に対する堅牢性, プライバシ, マシン倫理, 公正性など,様々な観点から考察する。評価の結果,信頼の脅威に対する未公表の脆弱性が発見された。例えば、GPTモデルは、有毒で偏りのある出力を生成し、トレーニングデータと会話履歴の両方のプライベート情報を漏らすために、容易に誤解される。また、GPT-4は標準ベンチマークではGPT-3.5よりも信頼性が高いが、GPT-4はJailbreakingシステムやユーザプロンプトによって脆弱である。我々の研究は、GPTモデルの総合的信頼性評価を示し、信頼性のギャップに光を当てている。私たちのベンチマークはhttps://decodingtrust.github.io/で公開されています。

関連論文リスト

Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs [7.687215328455751]
オープンAIの利用ポリシーに対するカスタムGPTの自動評価のためのフレームワークを提案する。我々は,ロマン主義,サイバーセキュリティ,アカデミックGPTの3つのカテゴリにまたがって,722のカスタムGPTを用いた大規模研究を通じて評価を行った。その結果、分析されたモデルの58.7%は、非準拠の兆候を示し、GPTストアのレビューと承認プロセスの弱点を明らかにしていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-03T15:19:28Z)
Exploring ChatGPT for Face Presentation Attack Detection in Zero and Few-Shot in-Context Learning [6.537257913467247]
本研究では,顔提示検出(PAD)の代替手段としてのChatGPT(特にGPT-4o)の可能性を明らかにする。以上の結果から, GPT-4oは高一貫性を示すことが示唆された。注目すべきは、このモデルは創発的な推論能力を示し、数ショットのシナリオで高い精度で攻撃タイプ(プリントまたはリプレイ)を正確に予測する。
論文参考訳（メタデータ） (2025-01-15T13:46:33Z)
Granting GPT-4 License and Opportunity: Enhancing Accuracy and Confidence Estimation for Few-Shot Event Detection [6.718542027371254]
大規模言語モデル(LLM)は、"銀"データの生成に使用を提案するために、数ショットの学習コンテキストで十分な可能性を示している。信頼度推定は、GPT-4のようなモデルの弱点を文書化したものである。本研究は,車両としてのBETTERライセンスにおけるイベント検出のための少数ショット学習によるGPT-4による効果的な信頼度推定手法について検討する。
論文参考訳（メタデータ） (2024-08-01T21:08:07Z)
Detect Llama -- Finding Vulnerabilities in Smart Contracts using Large Language Models [27.675558033502565]
我々は、スマートコントラクト脆弱性検出において、GPT-4より優れたオープンソースモデルを微調整する。バイナリ分類(つまり、このスマートコントラクトは脆弱か?)では、GPT-3.5FTとTect Llama-Foundationという2つの最高のパフォーマンスモデルがF1スコアを達成しています。 GPT-3.5FT と Detect Llama - Foundation はいずれも GPT-4 と GPT-4 Turbo を大きく上回っている。
論文参考訳（メタデータ） (2024-07-12T03:33:13Z)
Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文参考訳（メタデータ） (2024-06-10T14:18:56Z)
Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models [20.92843974858305]
GPTモデルはタスク最適化にますます利用されている。本稿では,直接的かつ強力な会話再構築攻撃について紹介する。過去の会話の再構築をめざした2つの先進的な攻撃を提示する。
論文参考訳（メタデータ） (2024-02-05T13:18:42Z)
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。 2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文参考訳（メタデータ） (2023-11-15T11:27:44Z)
A negation detection assessment of GPTs: analysis with the xNot360 dataset [9.165119034384027]
否定は自然言語の基本的側面であり、コミュニケーションと理解において重要な役割を果たす。我々は,xNot360データセットに適用したゼロショット予測手法を用いて,自然言語における否定の識別に焦点を当てた。 GPT-4はGPT-3.5を上回り,GPT-3.5は顕著な性能低下を示した。
論文参考訳（メタデータ） (2023-06-29T02:27:48Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)
Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文参考訳（メタデータ） (2023-03-11T01:19:01Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。