論文の概要: Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs
- arxiv url: http://arxiv.org/abs/2604.18576v2
- Date: Tue, 21 Apr 2026 16:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.957603
- Title: Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs
- Title(参考訳): 言語的信念の逐次ベイズ更新を用いたエージェント予測
- Authors: Kevin Murphy,
- Abstract要約: BLF (Bayesian Linguistic Forecaster) は二進予測のためのエージェントシステムである。
ForecastBenchのリーダーボードからの400のバックテスト質問に対して、BLFはすべての主要な公開メソッドを上回ります。
- 参考スコア(独自算出の注目度): 1.7470133607730627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present BLF (Bayesian Linguistic Forecaster), an agentic system for binary forecasting that achieves state-of-the-art performance on the ForecastBench benchmark. The system is built on three ideas. (1) A linguistic belief state: a semi-structured representation combining numerical probability estimates with natural-language evidence summaries, updated by the LLM at each step of an iterative tool-use loop. This contrasts with the common approach of appending all retrieved evidence to an ever-growing context. (2) Hierarchical multi-trial aggregation: running $K$ independent trials and combining them using logit-space shrinkage with a data-dependent prior. (3) Hierarchical calibration: Platt scaling with a hierarchical prior, which avoids over-shrinking extreme predictions for sources with skewed base rates. On 400 backtesting questions from the ForecastBench leaderboard, BLF outperforms all the top public methods, including Cassi, GPT-5, Grok~4.20, and Foresight-32B. Ablation studies show that the structured belief state is almost as impactful as web search access, and that shrinkage aggregation and hierarchical calibration each provide significant additional gains. In addition, we develop a robust back-testing framework with a leakage rate below 1.5\%, and use rigorous statistical methodology to compare different methods while controlling for various sources of noise.
- Abstract(参考訳): 本稿では、ForecastBenchベンチマークで最先端性能を実現するバイナリ予測のためのエージェントシステムであるBLF(Bayesian Linguistic Forecaster)を提案する。
システムは3つのアイデアに基づいて構築されている。
1) 言語的信念状態: 数値的確率推定と自然言語的証拠要約を組み合わせた半構造化表現で, 反復ツール利用ループの各ステップで LLM によって更新される。
これは、回収されたすべての証拠を継続的に成長する文脈に付加するという一般的なアプローチとは対照的である。
2)階層的多施設集約:$K$独立トライアルを実行し,ロジット空間の縮小とデータ依存の事前処理を併用する。
(3)階層的キャリブレーション: 階層的事前のプラットスケーリングは、歪んだベースレートを持つソースに対する過度な予測を避ける。
ForecastBenchのリーダーボードからの400のバックテスト質問に対して、BLFはCassi、GPT-5、Grok~4.20、Foresight-32Bなど、すべての主要な公開メソッドを上回ります。
アブレーション研究では、構造化された信念状態はWeb検索アクセスに匹敵する影響があり、縮小集約と階層的キャリブレーションがそれぞれ有意な追加利得をもたらすことが示されている。
さらに, 漏洩率1.5\%未満の頑健なバックテストフレームワークを開発し, 様々なノイズ源を制御しながら, 厳密な統計的手法を用いて異なる手法を比較した。
関連論文リスト
- DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles [5.647839536820347]
著者間の不一致構造を抽出し活用し,信頼度を良好に推定するフレームワークであるDiscoUQを紹介する。
DiscoUQ-LLM の平均 AUROC は 0.802 であり、最高のベースラインを上回っている。
学習した機能は、ほぼゼロに近いパフォーマンス劣化を伴うベンチマークで一般化される。
論文 参考訳(メタデータ) (2026-03-21T23:24:12Z) - PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution [2.28438857884398]
自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
論文 参考訳(メタデータ) (2026-03-10T13:16:45Z) - Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。
我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。
原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文 参考訳(メタデータ) (2025-09-16T17:24:35Z) - Foundation Models for Demand Forecasting via Dual-Strategy Ensembling [11.926658499983446]
本研究では,現実のサプライチェーンにおける販売予測のための基盤モデルの性能を向上させる統一アンサンブルフレームワークを提案する。
提案手法は,(1)階層型アンサンブル(HE)と(2)モデルバックボーンからの予測を統合し,バイアスを緩和し,安定性を向上させるアーキテクチャアンサンブル(AE)の2つの相補的戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-07-29T17:56:38Z) - Syntactic Control of Language Models by Posterior Inference [53.823006836309695]
言語モデルによって生成されたテキストの構文構造を制御することは、明快さ、スタイリスティックな一貫性、解釈可能性を必要とするアプリケーションにとって重要である。
後部推論に基づくサンプリングアルゴリズムは、生成中に対象の選挙区構造を効果的に強制することができると論じる。
提案手法では,提案分布からのサンプリングにより後続分布を推定するモンテカルロ法と,各生成したトークンが所望の構文構造に整合することを保証する統語タグを併用する。
論文 参考訳(メタデータ) (2025-06-08T14:01:34Z) - Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation [20.022623972491733]
大きな言語モデル(LLM)のランク付けは、$N$のポリシーに基づいてアライメントを改善する効果的なツールであることが証明されている。
本稿では,言語モデルのランキングの中から仮説テストのための新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-07T02:34:30Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。