論文の概要: Going All-In on LLM Accuracy: Fake Prediction Markets, Real Confidence Signals
- arxiv url: http://arxiv.org/abs/2512.05998v1
- Date: Mon, 01 Dec 2025 19:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.134475
- Title: Going All-In on LLM Accuracy: Fake Prediction Markets, Real Confidence Signals
- Title(参考訳): LLMの正確性に全力を注ぐ - 偽予測市場と実信信号
- Authors: Michael Todasco,
- Abstract要約: 検証可能な回答で100の数学と論理の質問を生成しました。
そして、ベースラインが正しく答えられるならば、各質問ベースラインペアに対して3つの予測モデルが予測された。
1条件当たりの予測は5,400回を超え、インセンティブランはわずかに高い精度を示した。
4万枚以上の賭けは99%、小賭け(1000枚)は74%の精度しか示さなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used to evaluate other models, yet these judgments typically lack any representation of confidence. This pilot study tests whether framing an evaluation task as a betting game (a fictional prediction market with its own LLM currency) improves forecasting accuracy and surfaces calibrated confidence signals. We generated 100 math and logic questions with verifiable answers. Six Baseline models (three current-generation, three prior-generation) answered all items. Three Predictor models then forecasted, for each question-baseline pair, if the baseline would answer correctly. Each predictor completed matched runs in two conditions: Control (simple correct/incorrect predictions) and Incentive (predictions plus wagers of 1-100,000 LLMCoin under even odds, starting from a 1,000,000 LLMCoin bankroll). Across 5,400 predictions per condition, Incentive runs showed modestly higher accuracy (81.5% vs. 79.1%, p = .089, d = 0.86) and significantly faster learning across rounds (12.0 vs. 2.9 percentage-point improvement from Round 1 to Round 4, p = .011). Most notably, stake size tracked confidence. "Whale" bets of 40,000+ coins were correct ~99% of the time, while small bets (<1,000 coins) showed only ~74% accuracy. The key finding is not that fictional money makes models smarter; accuracy gains were modest and did not reach statistical significance (p = .089) in this pilot. Rather, the betting mechanic created a legible confidence signal absent from binary yes/no outputs. This suggests that simple financial framing may help transform LLMs into risk-aware forecasters, making their internal beliefs visible and usable. The protocol offers a foundation for future work for meta-evaluation systems and what may become LLM-to-LLM prediction markets.
- Abstract(参考訳): 大規模言語モデルは、他のモデルを評価するために使われることが多いが、これらの判断は一般に、信頼性の表現を欠いている。
このパイロットスタディでは、評価タスクを賭けゲーム(自国のLLM通貨による架空の予測市場)としてフレーミングすることで予測精度が向上し、キャリブレーションされた信頼信号が表面化されるかどうかを検証した。
検証可能な回答で100の数学と論理の質問を生成しました。
6つのベースラインモデル(現世代3つ、前世代3つ)が全ての項目に答えた。
そして、ベースラインが正しく答えられるならば、各質問ベースラインペアに対して3つの予測モデルが予測された。
それぞれの予測器が一致した条件は、制御(単純な正しい/間違った予測)とインセンティブ(予測プラス1-100,000 LLMCoinは、1000,000 LLMCoinの銀行から始まっている)の2つだ。
インセンティブ・ランの精度は81.5%、79.1%、p = .089、d = 0.86、ラウンドごとの学習は12.0、ラウンド1からラウンド4まで2.9ポイント改善された。
中でも注目すべきは、ステークサイズが信頼を追跡できたことだ。
4万枚以上の賭けは99%、小賭け(1000枚)は74%の精度しか示さなかった。
重要な発見は、架空のお金がモデルをより賢くするわけではなく、精度の上昇は控えめであり、このパイロットでは統計的に重要な点(p = .089)に達しなかったことである。
むしろ、賭けのメカニックは、2進のye/no出力を欠いた正当性信頼信号を作り出した。
このことは、単純な金融フレーミングがLSMをリスク対応予測器に転換し、内部の信念を可視化し、使用可能にすることを示唆している。
このプロトコルは、メタ評価システムとLLM-to-LLM予測市場への将来の取り組みの基礎を提供する。
関連論文リスト
- Outcome-based Reinforcement Learning to Predict the Future [1.4313866885019229]
コンパクトな(14B)推論モデルは、o1のようなフロンティアモデルの予測精度に適合または超えるように訓練可能であることを示す。
ポリマーケットのトレーディングシミュレーションでは、その賭けが10%以上の投資のリターンをもたらすと見積もっている。
論文 参考訳(メタデータ) (2025-05-23T14:56:07Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Machine learning for sports betting: should model selection be based on
accuracy or calibration? [0.0]
NBAのデータを数シーズンにわたってトレーニングし、単一のシーズンでベッティング実験を行います。
モデル選択の基盤として,精度よりもキャリブレーションを用いることで,リターンが大きくなることを示す。
論文 参考訳(メタデータ) (2023-03-10T16:22:38Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Stock Price Prediction Under Anomalous Circumstances [81.37657557441649]
本稿では,異常な状況下での株価の変動パターンを捉えることを目的とする。
ARIMAとLSTMのモデルは、シングルストックレベル、業界レベル、一般市場レベルでトレーニングします。
2016年から2020年にかけての100社の株価に基づいて、平均予測精度は98%に達した。
論文 参考訳(メタデータ) (2021-09-14T18:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。