論文の概要: Incoherent Probability Judgments in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.16646v1
- Date: Tue, 30 Jan 2024 00:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:43:17.955323
- Title: Incoherent Probability Judgments in Large Language Models
- Title(参考訳): 大規模言語モデルにおける不整合確率判断
- Authors: Jian-Qiao Zhu and Thomas L. Griffiths
- Abstract要約: 自己回帰型大言語モデル(LLM)による確率判断のコヒーレンスを評価する。
これらのモデルから得られる判断は、しばしば不整合であり、確率論の規則から人間のような体系的な逸脱を示す。
- 参考スコア(独自算出の注目度): 5.088721610298991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive Large Language Models (LLMs) trained for next-word prediction
have demonstrated remarkable proficiency at producing coherent text. But are
they equally adept at forming coherent probability judgments? We use
probabilistic identities and repeated judgments to assess the coherence of
probability judgments made by LLMs. Our results show that the judgments
produced by these models are often incoherent, displaying human-like systematic
deviations from the rules of probability theory. Moreover, when prompted to
judge the same event, the mean-variance relationship of probability judgments
produced by LLMs shows an inverted-U-shaped like that seen in humans. We
propose that these deviations from rationality can be explained by linking
autoregressive LLMs to implicit Bayesian inference and drawing parallels with
the Bayesian Sampler model of human probability judgments.
- Abstract(参考訳): 副語予測のために訓練された自己回帰型大言語モデル(LLM)は、コヒーレントテキストの生成に顕著な習熟性を示した。
しかし、それらは等しくコヒーレントな確率判断を形成することに長けているのだろうか?
確率的アイデンティティと繰り返し判定を用いて,LLMによる確率判断の一貫性を評価する。
これらのモデルから得られる判断は、しばしば不整合であり、確率論の規則から人間のような体系的な逸脱を示す。
また、同じ事象を判断しようとすると、llmが生成する確率判断の平均分散関係は、ヒトに見られるような逆u型を示す。
自己回帰型LPMを暗黙のベイズ推定にリンクし,人間の確率判断のベイズ・サンプラーモデルと平行に描画することで,合理性からのこれらの偏差を説明できることを示す。
関連論文リスト
- CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - Generative vs. Discriminative modeling under the lens of uncertainty quantification [0.929965561686354]
本稿では,生成的アプローチと識別的アプローチの比較分析を行った。
両手法が,不確実性を考慮した推論において,様々な情報源からの情報を活用する能力を比較する。
本稿では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:32:43Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Can You Learn Semantics Through Next-Word Prediction? The Case of Entailment [36.82878715850013]
Merrillらは、理論上、最適なLMによって予測される文共起確率は、構成文の詳細な関係を反映すべきであると主張している。
本稿では,その理論をニューラルネットワークから包含関係を復号化するために利用できるか検討する。
それらのテストに類似したテストは、自然文間の係り受け関係を復号することができるが、完全には成立しない。
論文 参考訳(メタデータ) (2024-02-21T17:36:07Z) - Invariant Probabilistic Prediction [45.90606906307022]
任意の分布シフトは、一般に不変かつ頑健な確率的予測を認めないことを示す。
Invariant probabilistic predictions called IPP, and study the consistency of the underlying parameters。
論文 参考訳(メタデータ) (2023-09-18T18:50:24Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Score Matched Conditional Exponential Families for Likelihood-Free
Inference [0.0]
Likelihood-Free Inference (LFI) はモデルからのシミュレーションに依存する。
モデルからパラメータシミュレーションペアを観測に基づいて独立に生成する。
重みをスコアマッチングで調整したニューラルネットワークを用いて,条件付き指数関数的家族度近似を学習する。
論文 参考訳(メタデータ) (2020-12-20T11:57:30Z) - Decision-Making with Auto-Encoding Variational Bayes [71.44735417472043]
変分分布とは異なる後部近似を用いて意思決定を行うことが示唆された。
これらの理論的な結果から,最適モデルに関するいくつかの近似的提案を学習することを提案する。
おもちゃの例に加えて,単細胞RNAシークエンシングのケーススタディも紹介する。
論文 参考訳(メタデータ) (2020-02-17T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。