論文の概要: An Evaluation of Estimative Uncertainty in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.15185v1
- Date: Fri, 24 May 2024 03:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:09:00.253459
- Title: An Evaluation of Estimative Uncertainty in Large Language Models
- Title(参考訳): 大規模言語モデルにおける推定不確かさの評価
- Authors: Zhisheng Tang, Ke Shen, Mayank Kejriwal,
- Abstract要約: 推定の不確実性は長い間、CIAなどの諜報機関を含む研究領域であった。
本研究は,一般用大言語モデル(LLM)における推定の不確かさを,人間と相互に比較した。
GPT-3.5 や GPT-4 のような LLM は人間の推定値と一致している。
- 参考スコア(独自算出の注目度): 3.04503073434724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Words of estimative probability (WEPs), such as ''maybe'' or ''probably not'' are ubiquitous in natural language for communicating estimative uncertainty, compared with direct statements involving numerical probability. Human estimative uncertainty, and its calibration with numerical estimates, has long been an area of study -- including by intelligence agencies like the CIA. This study compares estimative uncertainty in commonly used large language models (LLMs) like GPT-4 and ERNIE-4 to that of humans, and to each other. Here we show that LLMs like GPT-3.5 and GPT-4 align with human estimates for some, but not all, WEPs presented in English. Divergence is also observed when the LLM is presented with gendered roles and Chinese contexts. Further study shows that an advanced LLM like GPT-4 can consistently map between statistical and estimative uncertainty, but a significant performance gap remains. The results contribute to a growing body of research on human-LLM alignment.
- Abstract(参考訳): 推定確率(WEP)の単語('maybe' や 'probably not' など)は、数値確率を含む直接の言明と比較して、推定の不確実性を伝達するための自然言語においてユビキタスである。
人間の推定の不確実性や、数値的な推定による校正は、長い間、CIAなどの諜報機関による研究領域だった。
本研究は, GPT-4 や ERNIE-4 のような一般用大言語モデル (LLM) における推定の不確かさを,人間と相互に比較した。
ここでは, GPT-3.5 や GPT-4 のような LLM が人間の推定値と一致していることを示す。
LLMに性的な役割と中国の文脈が提示される際にも、多様性が観察される。
さらなる研究により、GPT-4のような高度なLCMは統計的および推定的不確実性の間に一貫して対応できるが、大きな性能差は残る。
この結果は、ヒト-LLMアライメントの研究に寄与する。
関連論文リスト
- Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - GPT-4 Surpassing Human Performance in Linguistic Pragmatics [0.0]
本研究では,Large Language Models (LLMs) の言語プラグマティクスの理解と解釈能力について検討した。
Grice のコミュニケーション原理を用いて,LLM とヒトの被験者を対話型タスクに対する応答に基づいて評価した。
以上の結果より, LLM, 特にGPT4は, 実用的解釈において, 人体よりも優れていた。
論文 参考訳(メタデータ) (2023-12-15T05:40:15Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Large Language Models are biased to overestimate profoundness [0.0]
本研究は, GPT-4 およびその他の様々な大規模言語モデル (LLM) を用いて, 日常的, 動機的, 疑似発声文の深度を判定する。
その結果, LLM と人間の間には, 文の種類やプロンプト技術によらず, 有意なステートメントとステートメントの相関関係が認められた。
論文 参考訳(メタデータ) (2023-10-22T21:33:50Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。