論文の概要: VCBench: Benchmarking LLMs in Venture Capital
- arxiv url: http://arxiv.org/abs/2509.14448v1
- Date: Wed, 17 Sep 2025 21:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.98542
- Title: VCBench: Benchmarking LLMs in Venture Capital
- Title(参考訳): VCBench:ベンチャーキャピタルのLLMのベンチマーク
- Authors: Rick Chen, Joseph Ternasky, Afriyie Samuel Kwesi, Ben Griffin, Aaron Ontoyin Yin, Zakari Salifu, Kelvin Amoaba, Xianling Mu, Fuat Alican, Yigit Ihlamur,
- Abstract要約: 私たちはVC(VC)における創業者の成功を予測する最初のベンチマークであるVCBenchを紹介します。
当初、市場指数は1.9%の精度を達成していた。
Y Combinatorは指数を1.7倍、ティア-1は2.9倍上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks such as SWE-bench and ARC-AGI demonstrate how shared datasets accelerate progress toward artificial general intelligence (AGI). We introduce VCBench, the first benchmark for predicting founder success in venture capital (VC), a domain where signals are sparse, outcomes are uncertain, and even top investors perform modestly. At inception, the market index achieves a precision of 1.9%. Y Combinator outperforms the index by a factor of 1.7x, while tier-1 firms are 2.9x better. VCBench provides 9,000 anonymized founder profiles, standardized to preserve predictive features while resisting identity leakage, with adversarial tests showing more than 90% reduction in re-identification risk. We evaluate nine state-of-the-art large language models (LLMs). DeepSeek-V3 delivers over six times the baseline precision, GPT-4o achieves the highest F0.5, and most models surpass human benchmarks. Designed as a public and evolving resource available at vcbench.com, VCBench establishes a community-driven standard for reproducible and privacy-preserving evaluation of AGI in early-stage venture forecasting.
- Abstract(参考訳): SWE-benchやARC-AGIといったベンチマークでは、共有データセットが人工知能(AGI)への進歩をいかに加速するかが示されている。
ベンチャーキャピタル(VC)の創業者成功を予測する最初のベンチマークであるVCBenchを紹介します。
当初、市場指数は1.9%の精度を達成していた。
Y Combinatorは指数を1.7倍、ティア-1は2.9倍上回っている。
VCBenchは9000名の匿名ファウンダープロファイルを提供し、ID漏洩に抵抗しながら予測機能を維持するために標準化されている。
我々は9つの最先端の大規模言語モデル (LLM) を評価する。
DeepSeek-V3はベースライン精度の6倍以上、GPT-4oは最高F0.5に達し、ほとんどのモデルは人間のベンチマークを上回っている。
vcbench.comで公開され進化しているリソースとして設計されたVCBenchは、アーリーステージのベンチャー予測において、AGIの再現性とプライバシ保護のためのコミュニティ主導の標準を確立する。
関連論文リスト
- From Limited Data to Rare-event Prediction: LLM-powered Feature Engineering and Multi-model Learning in Venture Capital [0.0]
本稿では,大規模言語モデル (LLM) とマルチモデル機械学習 (ML) アーキテクチャを統合することで,希少かつ高インパクトな結果を予測する枠組みを提案する。
構造化されていないデータから複雑な信号を抽出・合成するために,LLMを利用した特徴工学を用いる。
我々はこのフレームワークをVC(Venture Capital)の分野に適用し、投資家は限られた、騒々しいアーリーステージデータでスタートアップを評価する必要がある。
論文 参考訳(メタデータ) (2025-09-09T20:46:54Z) - Has GPT-5 Achieved Spatial Intelligence? An Empirical Study [67.26290518883262]
GPT-5は、これまでで最も強力なAIモデルだと言われている。
8つのベンチマークで最先端のプロプライエタリモデルとオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-08-18T17:55:17Z) - YourBench: Easy Custom Evaluation Sets for Everyone [12.995134931278056]
YourBenchは、大規模言語モデル(LLM)を評価するための、新しいオープンソースのフレームワークである。
手動のアノテーションなしで、信頼性が高く、最新で、ドメインに適したベンチマークを安価に生成する。
我々はTemporaに基づくYourBenchライブラリ、Tempora-0325データセット、150k以上の質問応答ペア、およびすべての評価と推論トレースをリリースする。
論文 参考訳(メタデータ) (2025-04-02T15:40:24Z) - Forecasting Frontier Language Model Agent Capabilities [0.7499722271664147]
言語モデル(LM)の下流能力を予測する6つの予測手法を評価する。
計算やモデルリリース日などの入力メトリクスからベンチマークスコアを直接予測する"ワンステップ"アプローチや、クロスベンチマークパフォーマンス(PC-1)や人間による競争力のあるElo評価といった中間メトリックを最初に予測する"ツーステップ"アプローチを採用しています。
当社の予測では,2026年初めまでに,能力の低い非特殊化LMエージェントがSWE-Bench Verifiedで54%,最先端LMエージェントが87%の成功率に達すると予測されている。
論文 参考訳(メタデータ) (2025-02-21T02:34:17Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。