論文の概要: The Strategic Foresight of LLMs: Evidence from a Fully Prospective Venture Tournament
- arxiv url: http://arxiv.org/abs/2602.01684v1
- Date: Mon, 02 Feb 2026 05:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.938258
- Title: The Strategic Foresight of LLMs: Evidence from a Fully Prospective Venture Tournament
- Title(参考訳): LLMの戦略的展望:完全な将来的なベンチャートーナメントからの証拠
- Authors: Felipe A. Csaszar, Aticus Peterson, Daniel Wilde,
- Abstract要約: 当社は、Prolificを通じて採用した346人の経験豊富なマネージャと、監視対象条件の下で作業しているMBAのトレーニングを受けた投資家3名に対して、予測をベンチマークした。
人間の評価者は0.04から0.45の実際の結果とランク相関を達成し、いくつかのフロンティアLSMは0.60を超え、最高のジェニーニ2.5 Proは0.74に達した。
知恵に満ちたアンサンブルも、人間とAIのハイブリッドチームも、最高のスタンドアロンモデルを上回っませんでした。
- 参考スコア(独自算出の注目度): 0.19116784879310025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can artificial intelligence outperform humans at strategic foresight -- the capacity to form accurate judgments about uncertain, high-stakes outcomes before they unfold? We address this question through a fully prospective prediction tournament using live Kickstarter crowdfunding projects. Thirty U.S.-based technology ventures, launched after the training cutoffs of all models studied, were evaluated while fundraising remained in progress and outcomes were unknown. A diverse suite of frontier and open-weight large language models (LLMs) completed 870 pairwise comparisons, producing complete rankings of predicted fundraising success. We benchmarked these forecasts against 346 experienced managers recruited via Prolific and three MBA-trained investors working under monitored conditions. The results are striking: human evaluators achieved rank correlations with actual outcomes between 0.04 and 0.45, while several frontier LLMs exceeded 0.60, with the best (Gemini 2.5 Pro) reaching 0.74 -- correctly ordering nearly four of every five venture pairs. These differences persist across multiple performance metrics and robustness checks. Neither wisdom-of-the-crowd ensembles nor human-AI hybrid teams outperformed the best standalone model.
- Abstract(参考訳): 人工知能は人間を戦略的に上回り、その前に不確実で高い結果について正確な判断を下す能力があるだろうか?
我々は、Kickstarterのクラウドファンディングプロジェクトを利用して、完全な予測トーナメントを通じてこの問題に対処する。
調査対象となった全てのモデルのトレーニングカット後に開始された30の米国拠点の技術ベンチャーが評価され、資金調達はまだ進行中であり、成果は不明だった。
さまざまなフロンティアとオープンウェイトな大規模言語モデル (LLMs) が870のペア比較を完了し、予想される資金調達成功の完全なランキングを生み出した。
当社はこれらの予測を、Prolificを通じて採用した経験豊富なマネージャ346名と、監視対象条件の下で作業しているMBAトレーニング投資家3名に対してベンチマークした。
人間の評価者は0.04から0.45の実際の結果とランク相関を達成し、いくつかのフロンティアLSMは0.60を超え、最高の(Gemini 2.5 Pro)は0.74に達した。
これらの違いは、複数のパフォーマンスメトリクスと堅牢性チェックにまたがって持続する。
知恵に満ちたアンサンブルも、人間とAIのハイブリッドチームも、最高のスタンドアロンモデルを上回っませんでした。
関連論文リスト
- Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - The AI Productivity Index (APEX) [4.122962658725304]
我々は、フロンティアAIモデルが高い経済価値で知識労働を行うことができるかどうかを評価するベンチマークであるAI生産性指数(APEX)の最初のバージョンを紹介する。
APEX-v1.0は200のテストケースを含み、投資銀行、マネジメントコンサルティング、法律、プライマリ医療の4つの領域をカバーする。
GPT 5 (Thinking = High) は最高スコア (64.2%) を獲得し、Grok 4 (61.3%) と Gemini 2.5 Flash (Thinking = On) (60.4%) が続く。
論文 参考訳(メタデータ) (2025-09-30T03:26:17Z) - Creativity Benchmark: A benchmark for marketing creativity for large language models [0.509780930114934]
Creativity Benchmarkは、マーケティングのクリエイティビティにおける大規模言語モデル(LLM)の評価フレームワークである。
このベンチマークは100のブランド(12のカテゴリ)と3つのプロンプトタイプ(Insights, Ideas, Wild Ideas)をカバーする。
論文 参考訳(メタデータ) (2025-09-05T04:44:29Z) - Holistic Evaluation of Multimodal LLMs on Spatial Intelligence [81.2547965083228]
空間情報を用いたマルチモーダルLLMの総合評価のためのEASIを提案する。
われわれはこの調査を8つの主要なベンチマークで実施し、総トークン数は100億を超えている。
実験により、GPT-5は空間知能(SI)において前例のない強みを示すが、(2)多種多様なSIタスクにおいて人的性能に欠けることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T17:55:17Z) - Predicting Empirical AI Research Outcomes with Language Models [27.148683265085012]
AI研究における有望なアイデアの多くは提供されないが、その検証には相当な人的労力と計算が必要だ。
このタスクの最初のベンチマークを構築し、LMと人間の専門家を比較します。
私たちはカンファレンス論文からアイデアと実験結果を取り除き、ベースモデルがテストの切り離し日後に公表された1,585人の人間による検証されたアイデアペアを生成しました。
我々は,精巧なGPT-4.1と紙検索エージェントを組み合わせたシステムを開発し,25人の人間専門家を雇って比較する。
NLP領域では、我々のシステムは人間の専門家を64.4%対48.で破る。
論文 参考訳(メタデータ) (2025-06-01T02:46:31Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。