論文の概要: Evaluating Strategic Reasoning in Forecasting Agents
- arxiv url: http://arxiv.org/abs/2604.26106v1
- Date: Tue, 28 Apr 2026 20:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.166823
- Title: Evaluating Strategic Reasoning in Forecasting Agents
- Title(参考訳): 予測エージェントにおける戦略推論の評価
- Authors: Tom Liptay, Dan Schwarz, Rafael Poyiadzi, Jack Wildman, Nikos I. Bosse,
- Abstract要約: 予測器 0.011 Brier は、どのフロンティアエージェントよりも正確です。
専門家の予測官は、フロンティアエージェントの戦略的理由付けの失敗が政治的・ビジネス的リーダーのインセンティブを評価するのに重要であると結論づけた。
- 参考スコア(独自算出の注目度): 2.6913398550088483
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Forecasting benchmarks produce accuracy leaderboards but little insight into why some forecasters are more accurate than others. We introduce Bench to the Future 2 (BTF-2), 1,417 pastcasting questions with a frozen 15M-document research corpus in which agents reproducibly research and forecast offline, producing full reasoning traces. BTF-2 detects accuracy differences of 0.004 Brier score, and can distinguish differential agent strengths in research vs. judgment. We build a forecaster 0.011 Brier more accurate than any single frontier agent, and use it to evaluate agent strategic reasoning without hindsight bias. We find the better forecaster differs primarily in its pre-mortem analysis of its blind spots and consideration of black swans. Expert human forecasters found the dominant strategic reasoning failures of frontier agents are in assessing political and business leaders' incentives, judging their likelihood to follow through on stated plans, and modeling institutional processes.
- Abstract(参考訳): 予測ベンチマークは、正確なリーダーボードを生成するが、予測者が他のものよりも正確である理由についてはほとんど見当たらない。
我々は,Bentch to the Future 2 (BTF-2), 1,417のパスキャスティング質問を凍結した15M文書研究コーパスで紹介する。
BTF-2は、0.004ブライアスコアの精度差を検出し、研究における差分剤強度を判定する。
予測器 0.011 Brier をどのフロンティアエージェントよりも高精度に構築し,エージェントの戦略的推論を後見バイアスなしで評価する。
より優れた予測器は、主に盲点の暗視前分析と黒白鳥の考慮において異なる。
専門家の人間予測官は、フロンティアエージェントの戦略的な理由づけの失敗は、政治やビジネスのリーダーのインセンティブを評価し、その計画に従う可能性を判断し、制度的なプロセスをモデル化することにあると結論付けた。
関連論文リスト
- Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Accuracy Law for the Future of Deep Time Series Forecasting [65.46625911002202]
時系列予測は、部分的に観測可能で不確実な性質のため、本質的にゼロでない誤差の低い境界に直面する。
本稿では、ディープ時系列予測の性能上限をどうやって推定するかという根本的な問題に焦点をあてる。
新たに訓練された2,800以上の深層予測器の厳密な統計的テストに基づいて、深部モデルの最小予測誤差とウィンドウワイズ級数パターンの複雑さとの間に有意な指数関数的関係を見出した。
論文 参考訳(メタデータ) (2025-10-03T05:18:47Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - Interpreting Predictive Probabilities: Model Confidence or Human Label
Variation? [27.226997687210044]
私たちは、非常に異なる評価プロトコルを駆動する2つの主要な視点を特定します。
我々は,それらのメリットと限界について論じ,両者が信頼に値する,公平なNLPシステムにとって重要であるという立場を取る。
我々はツールを推奨し、人間のラベルに関する不確実性や不確実性について不整合表現を持つモデルへのエキサイティングな方向を示す。
論文 参考訳(メタデータ) (2024-02-25T15:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。