論文の概要: TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models
- arxiv url: http://arxiv.org/abs/2306.11507v1
- Date: Tue, 20 Jun 2023 12:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:26:26.341589
- Title: TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models
- Title(参考訳): TrustGPT: 信頼できる、責任のある大規模言語モデルのベンチマーク
- Authors: Yue Huang and Qihui Zhang and Philip S. Y and Lichao Sun
- Abstract要約: 大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
- 参考スコア(独自算出の注目度): 19.159479032207155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT, have gained significant
attention due to their impressive natural language processing capabilities. It
is crucial to prioritize human-centered principles when utilizing these models.
Safeguarding the ethical and moral compliance of LLMs is of utmost importance.
However, individual ethical issues have not been well studied on the latest
LLMs. Therefore, this study aims to address these gaps by introducing a new
benchmark -- TrustGPT. TrustGPT provides a comprehensive evaluation of LLMs in
three crucial areas: toxicity, bias, and value-alignment. Initially, TrustGPT
examines toxicity in language models by employing toxic prompt templates
derived from social norms. It then quantifies the extent of bias in models by
measuring quantifiable toxicity values across different groups. Lastly,
TrustGPT assesses the value of conversation generation models from both active
value-alignment and passive value-alignment tasks. Through the implementation
of TrustGPT, this research aims to enhance our understanding of the performance
of conversation generation models and promote the development of language
models that are more ethical and socially responsible.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
これらのモデルを利用する際には、人間中心の原則を優先することが重要です。
LLMの倫理的および道徳的コンプライアンスを守ることは、非常に重要である。
しかし、最近のLSMでは、個々の倫理的問題が十分に研究されていない。
そこで本研究では,新たなベンチマークであるTrustGPTを導入することで,これらのギャップに対処することを目的とする。
TrustGPTは、毒性、バイアス、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
当初、TrustGPTは社会規範から派生した有毒なプロンプトテンプレートを用いて言語モデルの毒性を調べる。
その後、異なる群にわたる定量的毒性値を測定することにより、モデルのバイアスの程度を定量化する。
最後に、TrustGPTはアクティブバリューアライメントとパッシブバリューアライメントの両方から会話生成モデルの価値を評価する。
TrustGPTの実装を通じて、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することを目的としている。
関連論文リスト
- SaGE: Evaluating Moral Consistency in Large Language Models [15.079905222871071]
我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。
モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-02-21T11:23:21Z) - TrustLLM: Trustworthiness in Large Language Models [446.5220130390284]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Denevil: Towards Deciphering and Navigating the Ethical Values of Large
Language Models via Instruction Learning [36.66806788879868]
大きな言語モデル(LLM)は前例のない突破口をたどったが、彼らの日常生活への統合は非倫理的コンテンツによって社会的リスクを引き起こす可能性がある。
この研究はモラル・ファンデーション理論を利用した倫理的価値を論じている。
論文 参考訳(メタデータ) (2023-10-17T07:42:40Z) - An Examination of the Compositionality of Large Generative
Vision-Language Models [8.586311439906224]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。