論文の概要: TimeSeek: Temporal Reliability of Agentic Forecasters
- arxiv url: http://arxiv.org/abs/2604.04220v1
- Date: Sun, 05 Apr 2026 18:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.98962
- Title: TimeSeek: Temporal Reliability of Agentic Forecasters
- Title(参考訳): TimeSeek: エージェントフォアキャスターの時間的信頼性
- Authors: Hamza Mostafa, Om Shastri, Dennis Lee,
- Abstract要約: モデルは、市場の初期段階や高い不確実性市場において最も競争力があるが、解像度に近い市場や強いコンセンサス市場では競争力ははるかに低い。
Web検索は、すべてのモデルに対して、プールされたBrier Skill Score(BSS)を改善するが、モデルチェックポイントペアの12%が問題になる。
単純な2モデルアンサンブルは、市場全体を上回ることなくエラーを低減する。
- 参考スコア(独自算出の注目度): 0.5352699766206807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TimeSeek, a benchmark for studying how the reliability of agentic LLM forecasters changes over a prediction market's lifecycle. We evaluate 10 frontier models on 150 CFTC-regulated Kalshi binary markets at five temporal checkpoints, with and without web search, for 15,000 forecasts total. Models are most competitive early in a market's life and on high-uncertainty markets, but much less competitive near resolution and on strong-consensus markets. Web search improves pooled Brier Skill Score (BSS) for every model overall, yet hurts in 12% of model-checkpoint pairs, indicating that retrieval is helpful on average but not uniformly so. Simple two-model ensembles reduce error without surpassing the market overall. These descriptive results motivate time-aware evaluation and selective-deference policies rather than a single market snapshot or a uniform tool-use setting.
- Abstract(参考訳): 我々は,予測市場のライフサイクルにおいてエージェントLLM予測器の信頼性がどのように変化するかを研究するベンチマークであるTimeSeekを紹介する。
CFTCが規制するKalshi二元市場の10つのフロンティアモデルを5つの時間的チェックポイントで評価し、15,000の予測を得た。
モデルは、市場の初期段階や高い不確実性市場において最も競争力があるが、解像度に近い市場や強いコンセンサス市場では競争力ははるかに低い。
Web 検索は,すべてのモデルに対してプールされた Brier Skill Score (BSS) を改善するが,モデルチェックポイントペアの 12% が問題となる。
単純な2モデルアンサンブルは、市場全体を上回ることなくエラーを低減する。
これらの記述的結果は、単一市場スナップショットや統一ツール使用設定よりも、タイムアウェア評価と選択参照ポリシーを動機付けている。
関連論文リスト
- PolySwarm: A Multi-Agent Large Language Model Framework for Prediction Market Trading and Latency Arbitrage [0.0]
PolySwarmは50の多様なLLMペルソナをデプロイし、バイナリ成果市場を同時に評価する。
遅延仲裁モジュールは、ログ正規価格モデルからCEXで実装された確率を導出することにより、古いポリマーケット価格を利用する。
論文 参考訳(メタデータ) (2026-04-04T22:51:06Z) - Increase Alpha: Performance and Risk of an AI-Driven Trading Framework [0.0]
金融市場は非効率で、価格、ボリューム、断続的な関係が明らかにされていない。
increase Alphaでは、800以上の米国株を毎日の方向信号にマッピングするディープラーニングフレームワークを構築しました。
私たちは、透過的で業界標準のメトリクスを通してリアルタイムのパフォーマンスを評価します。
論文 参考訳(メタデータ) (2025-09-20T14:37:02Z) - The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - Electricity Price Forecasting in the Irish Balancing Market [0.0]
この研究は、広く研究されている日頭市場で成功した様々な価格予測手法をアイルランドのバランス市場に適用する。
異なるトレーニングサイズの影響を調査するフレームワークを用いて,統計モデル,機械学習モデル,ディープラーニングモデルを比較した。
大規模な数値的な研究により、日頭市場における良いパフォーマンスのモデルはバランスの取れないモデルではうまく機能しないことが示された。
論文 参考訳(メタデータ) (2024-02-09T15:18:00Z) - Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。
データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。
概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文 参考訳(メタデータ) (2023-06-26T13:06:34Z) - Stock Price Prediction Under Anomalous Circumstances [81.37657557441649]
本稿では,異常な状況下での株価の変動パターンを捉えることを目的とする。
ARIMAとLSTMのモデルは、シングルストックレベル、業界レベル、一般市場レベルでトレーニングします。
2016年から2020年にかけての100社の株価に基づいて、平均予測精度は98%に達した。
論文 参考訳(メタデータ) (2021-09-14T18:50:38Z) - Models, Markets, and the Forecasting of Elections [3.8138805042090325]
我々は、選挙の数ヶ月前に市場のパフォーマンスが向上し、選挙が近づくにつれてモデルが良くなるという、時間とともに正確さの体系的な違いを見出した。
取引ボットを介してモデル予測を組み込んで合成予測を生成する市場設計を提案する。
論文 参考訳(メタデータ) (2021-02-06T19:05:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。