論文の概要: Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
- arxiv url: http://arxiv.org/abs/2605.22672v2
- Date: Fri, 22 May 2026 17:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.78793
- Title: Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
- Title(参考訳): キャパビリティは責任か? より多くのキャパビリティ言語モデルが、最も重要となるときの予測を悪化させる
- Authors: Nick Merrill, Jaeho Lee, Ezra Karger,
- Abstract要約: 逆スケーリングでは、より有能なモデルでは、超線形成長を伴う問題を予測し、状態変化の尾リスクを予測し、分布予測が悪化する。
このパターンはForecastBench-Simで、線形制御にマッチした合成SIRの流行を予測し、COVID-19、麻疹、住宅市場、ハイパーインフレの実際のデータセットに複製する。
この逆スケーリングは、LLM予測ベンチマークに共通する単一閾値のメトリクスには現れず、同一出力における能力-正確性関係のサインを逆転させる。
- 参考スコア(独自算出の注目度): 11.4807141145402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We document inverse scaling in LLMs on forecasting problems whose underlying time series exhibit superlinear growth and tail risk of regime change, a structure common in finance and epidemiology. On these tasks, more capable models produce worse distributional forecasts. The pattern appears on ForecastBench-Sim (FBSim), a contamination-free, simulated-world benchmark we release, in forecasting synthetic SIR epidemics with a matched linear control, and replicates in real-world datasets on COVID-19, measles, housing markets, and hyperinflation. A per-quantile decomposition shows the failure concentrates at the upper tail, which more capable models shift upward to track aggressive extrapolations of growth, while the lower tail stays put. A within-family study of Llama-3.1 shows that both model scale and post-training independently contribute to this effect. Domain knowledge does not reliably rescue calibration. This inverse scaling does not appear on single-threshold metrics common in LLM forecasting benchmarks, reversing the sign of the capability--accuracy relationship on identical outputs. Single-threshold scoring at conventional cutoffs misses the upper-tail cost; tail-inclusive scoring reverses the sign of the capability--accuracy relationship on the same outputs. We recommend that LLM forecasting evaluations use continuous (and unbounded) measures of accuracy alongside bounded binary threshold metrics.
- Abstract(参考訳): 金融・疫学に共通する構造である超線形成長と体制変化のテールリスクを示す時系列の予測問題について, LLMにおける逆スケーリングについて述べる。
これらのタスクでは、より有能なモデルがより悪い分布予測を生成する。
ForecastBench-Sim(FBSim)は、私たちがリリースした汚染のないシミュレーションされた世界ベンチマークで、線形制御にマッチした合成SIRの流行を予測し、COVID-19、麻疹、住宅市場、ハイパーインフレの実際のデータセットに複製する。
クォータタイル毎の分解では、故障は上尾に集中しており、より能力のあるモデルでは、成長の積極的な外挿を追跡するために上方へ移動し、下尾は保たれる。
Llama-3.1の家族内での研究は、モデルスケールとポストトレーニングの両方が独立してこの効果に寄与していることを示している。
ドメイン知識は確実にキャリブレーションを救えない。
この逆スケーリングは、LLM予測ベンチマークに共通する単一閾値のメトリクスには現れず、同一出力における能力-正確性関係のサインを逆転させる。
従来のカットオフでのシングルスレッショルドスコアは、上位テールコストを逸脱し、テールインクルージョンスコアは、同じアウトプットにおける能力-正確性関係のサインを逆転させる。
LLM予測評価では,有界二分しきい値とともに連続的(および非有界)な精度の測定が推奨される。
関連論文リスト
- Nexus : An Agentic Framework for Time Series Forecasting [72.73790673303154]
時系列予測は、ニュースやイベントのような構造化されていないコンテキストデータによる推論を必要とする。
予測を特殊なステージに分解するマルチエージェント予測フレームワークであるNexusを紹介します。
本研究では,現在のLLMは,従来よりも強い固有予測能力を有することを示す。
論文 参考訳(メタデータ) (2026-05-14T05:12:13Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Improving Machine Learning Performance with Synthetic Augmentation [0.0]
我々は、効果的なトレーニング分布の修正として、合成増強を形式化する。
追加のサンプルは推定誤差を減少させるが、人口目標をシフトさせることもできる。
合成増強は分散支配体制においてのみ有用であることを示す。
希少な登録ターゲティングは、ドメイン固有のメトリクスを改善することができるが、無条件の置換推論と矛盾する可能性がある。
論文 参考訳(メタデータ) (2026-04-16T00:23:01Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Beyond Confidence: The Rhythms of Reasoning in Generative Models [16.58205184223738]
大きな言語モデル(LLM)は、わずかに入力コンテキストの変化に対する感度に悩まされ、信頼性を損なうという印象的な能力を示す。
我々は,LLMが耐えうる最大内部状態を,その支配的な次トーケン予測が大幅に変化する前に定量化する新しい計量であるToken Constraint Bound(_mathrmTCB$)を紹介する。
実験の結果, 実効的なプロンプトエンジニアリングと相関し, 文脈内学習やテキスト生成において, 難易度に欠ける致命的な予測不安定性を明らかにすることができた。
論文 参考訳(メタデータ) (2026-02-11T12:58:23Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Forecasting the U.S. Treasury Yield Curve: A Distributionally Robust Machine Learning Approach [0.12891210250935145]
配当の不確実性下における米国債利回り曲線の予測について検討する。
予測者は、平均予測誤差を最小化する代わりに、最悪のケース予測損失を最小限に抑える決定ルールを選択する。
本研究では,因子モデルと高次元非パラメトリック機械学習モデルを統合する分散ロバストなアンサンブル予測フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T05:26:43Z) - Robust Probabilistic Load Forecasting for a Single Household: A Comparative Study from SARIMA to Transformers on the REFIT Dataset [0.0]
本稿では,揮発性REFIT家庭データセットを用いた課題に取り組む。
まず、季節計算法を選択するための厳密な比較実験を行うことで、この問題に対処する。
そして、古典的なベースラインから機械学習へと進化するモデル階層を体系的に評価する。
我々の研究結果によると、古典的なモデルはデータの非線形でシステマティックな振る舞いを捉えるのに失敗している。
論文 参考訳(メタデータ) (2025-11-30T12:05:18Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Enhancing Transformer-Based Foundation Models for Time Series Forecasting via Bagging, Boosting and Statistical Ensembles [7.787518725874443]
時系列基礎モデル(TSFM)は、時系列予測、異常検出、分類、計算のための強力な一般化とゼロショット能力を示している。
本稿では, 統計的およびアンサンブルに基づくエンハンスメント技術を用いて, 頑健さと精度を向上させる手法について検討する。
論文 参考訳(メタデータ) (2025-08-18T04:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。