論文の概要: LLMs are not (consistently) Bayesian: Quantifying internal (in)consistencies of LLMs' probabilistic beliefs
- arxiv url: http://arxiv.org/abs/2605.06915v1
- Date: Thu, 07 May 2026 20:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.604549
- Title: LLMs are not (consistently) Bayesian: Quantifying internal (in)consistencies of LLMs' probabilistic beliefs
- Title(参考訳): LLM は(一貫して)ベイズ的ではない: LLM の確率論的信念の内部的(内的)矛盾を定量化する
- Authors: Chacha Chen, Matthew Jörke, Adam Goliński, Masha Fedzechkina, Guillermo Sapiro, Sinead Williamson, Nicholas Foti,
- Abstract要約: 本稿では,情報処理規則としてLLMを研究する新しい手法を紹介する。
我々は、情報処理ギャップを利用して、LCMが証拠から確率的信念を更新する方法の内部(内部)の整合性を研究する。
- 参考スコア(独自算出の注目度): 13.649992636657347
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern AI systems are being deployed in complex domains such as medicine, science, and law, where it is important that they not only produce correct answers, but also represent and update uncertain beliefs about the world as new evidence arrives. We introduce the novel technique of studying LLMs as information processing rules and utilize the information processing gap to study the internal (in)consistencies of how LLMs update their probabilistic beliefs from evidence. Our extensive experiments evaluate multiple approaches in which LLMs can incorporate evidence into their beliefs. Some of these approaches produce (nearly) Bayesian updates; others seem to use a learned heuristic. Surprisingly, the non-Bayesian heuristic updates often outperform exact Bayesian computation in terms of downstream task performance -- indicating the LLMs' probabilistic models of the world are misspecified. Lastly, we show how our measure can provide diagnostics to identify issues with LLM-powered inferential systems.
- Abstract(参考訳): 現代のAIシステムは、医学、科学、法といった複雑な領域に展開されており、正しい答えを生み出すだけでなく、新たな証拠が到来するにつれて、世界に関する不確実な信念を表現し、更新することが重要である。
本稿では,LLMを情報処理規則として研究する新しい手法を紹介し,その情報処理ギャップを利用して,LCMが証拠から確率的信念を更新する方法の内的(内的)整合性について検討する。
LLMが証拠を彼らの信念に組み込むための複数のアプローチを評価する。
これらのアプローチのいくつかは(ほぼ)ベイズ的更新を生み出している。
驚くべきことに、非ベイズ的ヒューリスティックな更新は、ダウンストリームタスクのパフォーマンスの観点から、正確なベイズ計算よりも優れていることが多い。
最後に,LLMを用いた推論システムにおける問題を特定するための診断手法について述べる。
関連論文リスト
- Incoherent Beliefs & Inconsistent Actions in Large Language Models [33.54139088666698]
現実世界のタスクや環境は、大きな言語モデル(LLM)が一般的に評価される静的データセットとは異なる。
LLMのパフォーマンスの2つの重要な要素について検討する: LLMが彼らの信念を一貫性を持って更新する能力と、彼らが取っている行動がそれらの信念と整合している範囲である。
本結果は,複雑な実世界の環境下でのLCMの挙動を予測することの難しさを浮き彫りにする。
論文 参考訳(メタデータ) (2025-11-17T11:04:00Z) - Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [54.38054999271322]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,彼らの信念を更新しないことを示す。
我々は、標準ベイズモデルの予測を模倣するように訓練することで、ベイズ的方法による推論をLLMに教える。
より一般的には,LLMは実例から推論スキルを効果的に学習し,それらのスキルを新しいドメインに一般化できることを示す。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。