Fugu-MT 論文翻訳(概要): YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches

論文の概要: YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches

arxiv url: http://arxiv.org/abs/2604.02378v1
Date: Wed, 01 Apr 2026 07:58:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.129915
Title: YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches
Title（参考訳）: YC Bench:Y Combinatorのバッチでスタートアップのパフォーマンスを予測するためのライブベンチマーク
Authors: Mostapha Benhenda,
Abstract要約: YC Benchは、YCバッチ内の早期パフォーマンスを予測するためのライブベンチマークです。 YC W26バッチをケーススタディとして、プレデモデイスコアを用いてパフォーマンスを測定した。ベースラインとして、YC W26アプリケーションの期限前にGoogleが言及しているように、ブランド認識のシンプルなプロキシがあります。 YC Demo Dayでトップパフォーマー11人中6人(リコール:55%)をリコール)
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Forecasting startup success is notoriously difficult, partly because meaningful outcomes, such as exits, large funding rounds, and sustained revenue growth, are rare and can take years to materialize. As a result, signals are sparse and evaluation cycles are slow. Y Combinator batches offer a unique mitigation: each batch comprises around 200 startups, funded simultaneously, with evaluation at Demo Day only three months later. We introduce YC Bench, a live benchmark for forecasting early outperformance within YC batches. Using the YC W26 batch as a case study (196 startups), we measure outperformance with a Pre-Demo Day Score, a KPI combining publicly available traction signals and web visibility. This short-term metric enables rapid evaluation of forecasting models. As a baseline, we take Google mentions prior to the YC W26 application deadline, a simple proxy for prior brand recognition, recovering 6 of 11 top performers at YC Demo Day (55% recall). YC Bench provides a live benchmark for studying startup success forecasting, with iteration cycles measured in months rather than years. Code and Data are available on GitHub: https://github.com/benstaf/ycbench
Abstract（参考訳）: なぜなら、エグジットや大規模な資金調達ラウンド、持続的な収益成長といった有意義な成果は稀であり、実現には数年を要するからだ。その結果、信号はスパースであり、評価サイクルは遅くなる。 Y Combinatorのバッチは、ユニークな緩和を提供する。各バッチは200のスタートアップから成り、同時に資金提供され、わずか3か月後のDemo Dayでの評価を受けた。 YC Benchは、YCバッチ内の早期パフォーマンスを予測するためのライブベンチマークです。 YC W26のバッチをケーススタディ(196のスタートアップ)として、公開のトラクション信号とWeb可視性を組み合わせたKPIであるPre-Demo Day Scoreでパフォーマンスを測定します。この短期指標は予測モデルの迅速な評価を可能にする。ベースラインとして、YCのW26アプリケーション期限に先立ってGoogleは、ブランド認識のためのシンプルなプロキシとして、YC Demo Day(55%のリコール)でトップパフォーマー11人のうち6人をリカバリした、と述べている。 YC Benchは、スタートアップの成功予測を研究するためのライブベンチマークを提供している。コードとデータはGitHubで入手できる: https://github.com/benstaf/ycbench

関連論文リスト

A Rubric-Supervised Critic from Sparse Real-World Outcomes [87.11204512676193]
現実のコーディングエージェントは、成功信号がノイズが多く、遅延し、スパースであるループで人間と動作します。本稿では,RLに基づくトレーニングや推論時間スケーリングの報奨モデルとして,スパースとノイズの相互作用データから"批判的"モデルを学習するプロセスを提案する。
論文参考訳（メタデータ） (2026-03-04T07:23:54Z)
Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。 CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文参考訳（メタデータ） (2026-02-12T18:58:30Z)
Predicting Startup Success Using Large Language Models: A Novel In-Context Learning Approach [32.510120225056944]
本稿では,大規模言語モデル(LLM)を用いたスタートアップ成功予測のためのコンテキスト内学習フレームワークを提案する。具体的には,k-nearest-neighbor-based in-context learning framework(kNN-ICL)を提案する。 Crunchbaseの実際のプロファイルを用いて、kNN-ICLアプローチは、教師付き機械学習ベースラインやバニラインコンテキスト学習よりも高い予測精度を実現する。
論文参考訳（メタデータ） (2026-01-23T09:08:52Z)
$\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。 CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文参考訳（メタデータ） (2023-12-22T07:42:00Z)
Matbench Discovery -- A framework to evaluate machine learning crystal stability predictions [1.9402357545481315]
Matbench Discoveryは機械学習(ML)エネルギーモデルの評価フレームワークである。ランダムフォレスト、グラフニューラルネットワーク(GNN)、ワンショット予測器、反復ベイズ、普遍原子間ポテンシャル(UIP)など、さまざまなアプローチをベンチマークする。 UIPはトップパフォーマーとして登場し、最初の10k安定予測ではF1スコアが0.57-0.82、発見加速因子(DAF)が6倍に達する。
論文参考訳（メタデータ） (2023-08-28T22:29:57Z)
Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文参考訳（メタデータ） (2023-08-08T19:38:15Z)
A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。 TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文参考訳（メタデータ） (2022-03-23T04:06:01Z)
AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文参考訳（メタデータ） (2020-04-30T11:08:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。