論文の概要: Are LLM Belief Updates Consistent with Bayes' Theorem?
- arxiv url: http://arxiv.org/abs/2507.17951v1
- Date: Wed, 23 Jul 2025 21:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.627822
- Title: Are LLM Belief Updates Consistent with Bayes' Theorem?
- Title(参考訳): LLMの信念はベイズの定理と一致しているか?
- Authors: Sohaib Imran, Ihor Kendiukhov, Matthew Broerman, Aditya Thomas, Riccardo Campanella, Rob Lamb, Peter M. Atkinson,
- Abstract要約: ベイズ的コヒーレンス係数を定式化し、その計量を測るデータセットを生成する。
5つのモデルファミリーにまたがる複数の事前訓練済み言語モデルに対して,BCCを測定した。
その結果、より大きく、より有能な事前学習言語モデルがベイズの定理に忠実なクレデンスを割り当てているという仮説の証拠が得られた。
- 参考スコア(独自算出の注目度): 1.1779072208948291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do larger and more capable language models learn to update their "beliefs" about propositions more consistently with Bayes' theorem when presented with evidence in-context? To test this, we formulate a Bayesian Coherence Coefficient (BCC) metric and generate a dataset with which to measure the BCC. We measure BCC for multiple pre-trained-only language models across five model families, comparing against the number of model parameters, the amount of training data, and model scores on common benchmarks. Our results provide evidence for our hypothesis that larger and more capable pre-trained language models assign credences that are more coherent with Bayes' theorem. These results have important implications for our understanding and governance of LLMs.
- Abstract(参考訳): より大きく、より有能な言語モデルは、文脈内で証拠を提示するとき、ベイズの定理とより一貫して命題に関する「信念」を更新することを学ぶだろうか?
これをテストするために、ベイジアンコヒーレンス係数(BCC)を定式化し、BCCを測定するデータセットを生成する。
モデルパラメータの数、トレーニングデータの量、一般的なベンチマークのモデルスコアと比較し、5つのモデルファミリにまたがる事前訓練済み言語モデルのBCCを測定した。
この結果から,ベイズの定理とより一貫性のあるクレデンスを,より大きく,より有能な事前学習言語モデルで割り当てることが示唆された。
これらの結果はLLMの理解とガバナンスに重要な意味を持つ。
関連論文リスト
- Measuring Chain of Thought Faithfulness by Unlearning Reasoning Steps [32.60500043302544]
生成した推論のパラメトリック忠実度を測定するための枠組みを導入し、未学習推論ステップ(FUR)による忠実度を提案する。
FURはモデルパラメータから推論ステップに含まれる情報を消去し、モデルの予測に結果が与える影響として忠実度を測定する。
我々の実験では、FURは、CoTがパラメトリックに忠実であることを示すキーステップを未学習にすることで、基礎となるモデルの予測を正確に変更できることがしばしば示されている。
論文 参考訳(メタデータ) (2025-02-20T18:45:05Z) - Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation [20.022623972491733]
大きな言語モデル(LLM)のランク付けは、$N$のポリシーに基づいてアライメントを改善する効果的なツールであることが証明されている。
本稿では,言語モデルのランキングの中から仮説テストのための新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-07T02:34:30Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Lean-STaR: Learning to Interleave Thinking and Proving [53.923617816215774]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。
Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T01:43:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models [24.144513068228903]
本稿では,インプット介入に基づく信頼度テストに使用できる指標である相関説明忠実度(CEF)について紹介する。
我々の測定基準は、モデルが予測するラベル分布の総シフトを考慮に入れている。
次に, 相関対実テスト(CCT)を導入し, 相関対実テスト(CEF)をインスタンス化する。
論文 参考訳(メタデータ) (2024-04-04T04:20:04Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。