論文の概要: TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models
- arxiv url: http://arxiv.org/abs/2306.11507v1
- Date: Tue, 20 Jun 2023 12:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:26:26.341589
- Title: TrustGPT: A Benchmark for Trustworthy and Responsible Large Language
Models
- Title(参考訳): TrustGPT: 信頼できる、責任のある大規模言語モデルのベンチマーク
- Authors: Yue Huang and Qihui Zhang and Philip S. Y and Lichao Sun
- Abstract要約: 大きな言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
TrustGPTは、毒性、偏見、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
本研究の目的は、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することである。
- 参考スコア(独自算出の注目度): 19.159479032207155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT, have gained significant
attention due to their impressive natural language processing capabilities. It
is crucial to prioritize human-centered principles when utilizing these models.
Safeguarding the ethical and moral compliance of LLMs is of utmost importance.
However, individual ethical issues have not been well studied on the latest
LLMs. Therefore, this study aims to address these gaps by introducing a new
benchmark -- TrustGPT. TrustGPT provides a comprehensive evaluation of LLMs in
three crucial areas: toxicity, bias, and value-alignment. Initially, TrustGPT
examines toxicity in language models by employing toxic prompt templates
derived from social norms. It then quantifies the extent of bias in models by
measuring quantifiable toxicity values across different groups. Lastly,
TrustGPT assesses the value of conversation generation models from both active
value-alignment and passive value-alignment tasks. Through the implementation
of TrustGPT, this research aims to enhance our understanding of the performance
of conversation generation models and promote the development of language
models that are more ethical and socially responsible.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。
これらのモデルを利用する際には、人間中心の原則を優先することが重要です。
LLMの倫理的および道徳的コンプライアンスを守ることは、非常に重要である。
しかし、最近のLSMでは、個々の倫理的問題が十分に研究されていない。
そこで本研究では,新たなベンチマークであるTrustGPTを導入することで,これらのギャップに対処することを目的とする。
TrustGPTは、毒性、バイアス、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。
当初、TrustGPTは社会規範から派生した有毒なプロンプトテンプレートを用いて言語モデルの毒性を調べる。
その後、異なる群にわたる定量的毒性値を測定することにより、モデルのバイアスの程度を定量化する。
最後に、TrustGPTはアクティブバリューアライメントとパッシブバリューアライメントの両方から会話生成モデルの価値を評価する。
TrustGPTの実装を通じて、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することを目的としている。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness [30.632260870411177]
大規模言語モデル(LLM)は、過去数年間、人々の仕事や日常生活に急速に浸透してきた。
この論文は、ソフトウェアテストと自然言語処理の両方の観点から、LSMの正当性、非毒性、公平性に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-31T22:21:04Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness [24.843692458375436]
本研究は,5つの信頼性分野において,汎用的嗜好データに整合したモデルが,有益性と無害性に与える影響について検討した。
RLHFによる信頼性の向上は保証されるには程遠いものであり、嗜好データ、アライメントアルゴリズム、および特定の信頼性の側面の間には複雑な相互作用が存在する。
論文 参考訳(メタデータ) (2024-04-29T17:00:53Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - SaGE: Evaluating Moral Consistency in Large Language Models [15.079905222871071]
我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。
モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-02-21T11:23:21Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。