論文の概要: Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.02914v1
- Date: Tue, 02 Dec 2025 16:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.966659
- Title: Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning
- Title(参考訳): Martingale Score: LLM推論におけるベイズ的合理性に関する教師なしの基準
- Authors: Zhonghao He, Tianyi Qiu, Hirokazu Shirado, Maarten Sap,
- Abstract要約: 本研究では,大規模言語モデルにおける信念定着のための体系的評価フレームワークを提案する。
我々はベイズ統計からマルティンゴールの資産を用いて、この資産の違反を測定する。
モデル、推論手法、およびドメインは、信念の定着の傾向が強い。
- 参考スコア(独自算出の注目度): 26.42437186150084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reasoning techniques have substantially improved the performance of large language models (LLMs), raising expectations for their ability to provide accurate, truthful, and reliable information. However, emerging evidence suggests that iterative reasoning may foster belief entrenchment and confirmation bias, rather than enhancing truth-seeking behavior. In this study, we propose a systematic evaluation framework for belief entrenchment in LLM reasoning by leveraging the Martingale property from Bayesian statistics. This property implies that, under rational belief updating, the expected value of future beliefs should remain equal to the current belief, i.e., belief updates are unpredictable from the current belief. We propose the unsupervised, regression-based Martingale Score to measure violations of this property, which signal deviation from the Bayesian ability of updating on new evidence. In open-ended problem domains including event forecasting, value-laden questions, and academic paper review, we find such violations to be widespread across models and setups, where the current belief positively predicts future belief updates, a phenomenon which we term belief entrenchment. We identify the models, reasoning techniques, and domains more prone to belief entrenchment. Finally, we validate the Martingale Score by showing that it predicts ground-truth accuracy on problem domains where ground truth labels are available. This indicates that, while designed as an unsupervised metric that operates even in domains without access to ground truth, the Martingale Score is a useful proxy of the truth-seeking ability of a reasoning process.
- Abstract(参考訳): 近年の推論技術の進歩により、大規模言語モデル(LLM)の性能が大幅に向上し、正確で誠実で信頼性の高い情報を提供する能力への期待が高まっている。
しかし、新たな証拠は、反復的推論が真実を探究行動を強化するよりも、信念の定着と確証バイアスを促進する可能性があることを示唆している。
本研究では,ベイズ統計からマルティンゲール特性を活用することによって,LLM推論における信念強化のための体系的評価枠組みを提案する。
この性質は、合理的な信念更新の下では、将来の信念の期待値は現在の信念と同等であり、すなわち、信念更新は現在の信念から予測不可能であることを意味する。
我々は、この特性の違反を測定するために、教師なし回帰に基づくMartingale Scoreを提案する。
イベント予測や有価値質問,学術論文レビューなどのオープンエンド問題領域では,このような違反がモデルや設定全体に広まっており,現在の信念が将来的な信条更新を肯定的に予測する現象である。
モデル、推論手法、およびドメインは、より信念の定着しがちである。
最後に、基底真理ラベルが利用できる問題領域において、基底真理精度を予測できることを示し、マーティンゴールスコアを検証する。
これは、教師なしの計量として設計され、基礎的な真理にアクセスできない領域でも機能するが、Martingale Scoreは推論プロセスの真理探索能力の有用なプロキシであることを示している。
関連論文リスト
- MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models [43.872922223495586]
大きな推論モデル(LRM)は複雑な推論において強い能力を示すが、証拠に依存した事実問題に対する限界的な利得は限られている。
この制限は、モデルが推論中に正しい事実を識別するが、最終的な応答にそれらを組み込むことができない、推論と問合せのギャップに起因する。
本稿では,外部検証に頼らずに事実性を高めるフレームワークMR-ALIGNを提案する。
論文 参考訳(メタデータ) (2025-10-27T15:00:54Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning [36.74368293113009]
本研究では,真の信念を同時に拡張しつつ,素早い信念を抑えることによって信念空間を是正する手法を提案する。
提案手法はまず, モデルに文章の説明文を生成するように促すことにより, 誤った解答につながる信念を同定する。
次に、未学習を適用して、同定された刺激的な信念を抑え、真の信念を強化することにより、モデルの信念空間を効果的に修正する。
論文 参考訳(メタデータ) (2025-02-28T00:57:45Z) - Is In-Context Learning in Large Language Models Bayesian? A Martingale Perspective [4.415371871652809]
大規模言語モデル(LLM)の顕著な特徴として、インコンテキスト学習(ICL)が登場している。
このようなシナリオにおける不明瞭な予測には,マーチンゲール特性が必須条件であることを示す。
我々は、マーチンゲールの性質が満たされれば保持しなければならない、対応する理論とテスト統計を伴う実行可能なチェックを導出する。
論文 参考訳(メタデータ) (2024-06-02T16:20:30Z) - Consistent End-to-End Estimation for Counterfactual Fairness [56.9060492313073]
本稿では, 対実フェアネスの予測を行うための新しい対実フェアネス予測器を提案する。
我々は,本手法が対実公正性の概念を確実にするのに有効であることを理論的に保証する。
論文 参考訳(メタデータ) (2023-10-26T17:58:39Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。