Fugu-MT 論文翻訳(概要): TrustLLM: Trustworthiness in Large Language Models

論文の概要: TrustLLM: Trustworthiness in Large Language Models

arxiv url: http://arxiv.org/abs/2401.05561v3
Date: Thu, 25 Jan 2024 17:49:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 17:13:42.007050
Title: TrustLLM: Trustworthiness in Large Language Models
Title（参考訳）: trustllm: 大きな言語モデルの信頼性
Authors: Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, William Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yong Chen, Yue Zhao
Abstract要約: 本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
参考スコア（独自算出の注目度）: 446.5220130390284
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.
Abstract（参考訳）: ChatGPTによって実証された大規模言語モデル (LLM) は、その優れた自然言語処理能力でかなりの注目を集めている。しかしながら、これらのLSMは、特に信頼性の領域において、多くの課題を提示している。したがって、LSMの信頼性を確保することが重要なトピックである。本稿では, LLMにおける信頼度に関する総合的研究であるTrustLLMを紹介し, 信頼性の異なる側面に対する原則, 確立されたベンチマーク, 信頼性の評価と分析, オープンチャレンジと今後の方向性について議論する。具体的には,まず,8つの異なる次元にまたがる信頼性の高いLCMの原理を提案する。これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシー、機械倫理を含む6つの次元にわたるベンチマークを確立する。次に、30以上のデータセットからなるTrustLLMの16のメインストリームLCMを評価する。まず,一般に信頼性と実用性(機能的有効性)は肯定的に関連していることを示す。第2に,プロプライエタリなLDMは信頼性という点で一般的にオープンソースよりも優れており,広くアクセス可能なオープンソースLMの潜在的なリスクに対する懸念が高まっている。しかし、いくつかのオープンソース LLM はプロプライエタリに非常に近いものである。第3に、一部のllmは信頼性を示すために過度に調整される可能性があり、不正なプロンプトを有害として扱い、その結果、応答しないことによって、有用性を損なう可能性がある点に注意が必要である。最後に、モデル自体だけでなく、信頼性を支える技術においても透明性を確保することの重要性を強調します。採用されている特定の信頼に値する技術を知ることは、その効果を分析する上で重要である。

関連論文リスト

FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain [54.06289302468199]
FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。 o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。 DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
論文参考訳（メタデータ） (2025-10-17T01:45:49Z)
Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems [52.57826440085856]
LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。 LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
論文参考訳（メタデータ） (2025-06-03T07:32:57Z)
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。 MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文参考訳（メタデータ） (2025-05-30T17:54:08Z)
Mapping the Trust Terrain: LLMs in Software Engineering -- Insights and Perspectives [25.27634711529676]
大規模言語モデル(LLM)の応用は、様々なソフトウェア工学(SE)タスクのための業界や学術分野で急速に成長しています。これらのモデルがクリティカルなプロセスにとってより不可欠なものになると、信頼性と信頼性が不可欠になります。 SE における LLM の信頼関連概念の展望は比較的不明瞭であり、信頼、不信、信頼といった概念は明確な概念化を欠いている。
論文参考訳（メタデータ） (2025-03-18T00:49:43Z)
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文参考訳（メタデータ） (2025-02-17T11:11:09Z)
Can You Trust LLM Judgments? Reliability of LLM-as-a-Judge [0.3759936323189418]
大規模言語モデル(LLM)はますます強力でユビキタスなものになってきていますが、その性質はアウトプットの信頼性に課題をもたらします。マクドナルドのオメガを利用したLCM判定の信頼性を厳格に評価するための新しい枠組みを提案する。
論文参考訳（メタデータ） (2024-12-17T03:37:31Z)
To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文参考訳（メタデータ） (2024-07-24T09:48:48Z)
Large Language Models as Reliable Knowledge Bases? [60.25969380388974]
大きな言語モデル(LLM)は潜在的な知識ベース(KB)と見なすことができる。本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性に焦点をあてる。 ICLや微調整のような戦略は、LLMをより良くKBにするには失敗している。
論文参考訳（メタデータ） (2024-07-18T15:20:18Z)
BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。 BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文参考訳（メタデータ） (2024-06-19T06:46:59Z)
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。 21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文参考訳（メタデータ） (2024-06-11T08:38:13Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
The Calibration Gap between Model and Human Confidence in Large Language Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文参考訳（メタデータ） (2024-01-24T22:21:04Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文参考訳（メタデータ） (2023-08-10T06:43:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。