論文の概要: TrustLLM: Trustworthiness in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.05561v3
- Date: Thu, 25 Jan 2024 17:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 17:13:42.007050
- Title: TrustLLM: Trustworthiness in Large Language Models
- Title(参考訳): trustllm: 大きな言語モデルの信頼性
- Authors: Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie
Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin
Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chaowei Xiao,
Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan
Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal,
James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang
Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang
He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu
Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen,
Tianming Liu, Tianyi Zhou, William Wang, Xiang Li, Xiangliang Zhang, Xiao
Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yong
Chen, Yue Zhao
- Abstract要約: 本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
- 参考スコア(独自算出の注目度): 446.5220130390284
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs), exemplified by ChatGPT, have gained
considerable attention for their excellent natural language processing
capabilities. Nonetheless, these LLMs present many challenges, particularly in
the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs
emerges as an important topic. This paper introduces TrustLLM, a comprehensive
study of trustworthiness in LLMs, including principles for different dimensions
of trustworthiness, established benchmark, evaluation, and analysis of
trustworthiness for mainstream LLMs, and discussion of open challenges and
future directions. Specifically, we first propose a set of principles for
trustworthy LLMs that span eight different dimensions. Based on these
principles, we further establish a benchmark across six dimensions including
truthfulness, safety, fairness, robustness, privacy, and machine ethics. We
then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of
over 30 datasets. Our findings firstly show that in general trustworthiness and
utility (i.e., functional effectiveness) are positively related. Secondly, our
observations reveal that proprietary LLMs generally outperform most open-source
counterparts in terms of trustworthiness, raising concerns about the potential
risks of widely accessible open-source LLMs. However, a few open-source LLMs
come very close to proprietary ones. Thirdly, it is important to note that some
LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent
that they compromise their utility by mistakenly treating benign prompts as
harmful and consequently not responding. Finally, we emphasize the importance
of ensuring transparency not only in the models themselves but also in the
technologies that underpin trustworthiness. Knowing the specific trustworthy
technologies that have been employed is crucial for analyzing their
effectiveness.
- Abstract(参考訳): ChatGPTによって実証された大規模言語モデル (LLM) は、その優れた自然言語処理能力でかなりの注目を集めている。
しかしながら、これらのLSMは、特に信頼性の領域において、多くの課題を提示している。
したがって、LSMの信頼性を確保することが重要なトピックである。
本稿では, LLMにおける信頼度に関する総合的研究であるTrustLLMを紹介し, 信頼性の異なる側面に対する原則, 確立されたベンチマーク, 信頼性の評価と分析, オープンチャレンジと今後の方向性について議論する。
具体的には,まず,8つの異なる次元にまたがる信頼性の高いLCMの原理を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシー、機械倫理を含む6つの次元にわたるベンチマークを確立する。
次に、30以上のデータセットからなるTrustLLMの16のメインストリームLCMを評価する。
まず,一般に信頼性と実用性(機能的有効性)は肯定的に関連していることを示す。
第2に,プロプライエタリなLDMは信頼性という点で一般的にオープンソースよりも優れており,広くアクセス可能なオープンソースLMの潜在的なリスクに対する懸念が高まっている。
しかし、いくつかのオープンソース LLM はプロプライエタリに非常に近いものである。
第3に、一部のllmは信頼性を示すために過度に調整される可能性があり、不正なプロンプトを有害として扱い、その結果、応答しないことによって、有用性を損なう可能性がある点に注意が必要である。
最後に、モデル自体だけでなく、信頼性を支える技術においても透明性を確保することの重要性を強調します。
採用されている特定の信頼に値する技術を知ることは、その効果を分析する上で重要である。
関連論文リスト
- Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period
of Large Language Models [49.48324619809122]
プレトレーニング中のLLMの信頼性の探索を開拓した。
信頼性、プライバシー、毒性、公平性、堅牢性という5つの重要な側面に注目します。
我々は、同様の2相現象、すなわちフィッティングと圧縮を初めて観測した。
論文 参考訳(メタデータ) (2024-02-29T18:55:06Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [64.14848764079503]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Benchmarking LLMs via Uncertainty Quantification [95.67653501674995]
我々は,Large Language Models (LLM) のための新しいベンチマーク手法を導入する。
本試験では,5つの自然言語処理タスクにまたがる8つのLLMについて検討した。
予測精度と予測不確実性の両方を考慮して,不確実性を考慮した評価指標UAccを導入する。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - How Trustworthy are Open-Source LLMs? An Assessment under Malicious
Demonstrations Shows their Vulnerabilities [40.579927521783]
我々は、信頼性に関するオープンソースのLarge Language Modelsの評価を行い、8つの異なる側面でそれらを精査する。
我々は,信頼度攻撃のための巧妙に作り上げた悪意あるデモンストレーションを組み込むことにより,CoU(Chain of Utterances-based)の促進戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T23:33:07Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language
Models' Alignment [15.663618713626386]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of
Confidence Elicitation in LLMs [45.66518090353208]
本稿では,モデル微調整やプロプライエタリ情報へのアクセスを必要としない信頼性評価手法について検討する。
本稿では,言語化に基づく手法,一貫性に基づく手法,およびベンチマークのためのハイブリッド手法の3つのカテゴリを紹介する。
これらの手法を解析した結果,いくつかの重要な知見が得られた。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。