論文の概要: PHBench: A Benchmark for Predicting Startup Series A Funding from Product Hunt Launch Signals
- arxiv url: http://arxiv.org/abs/2605.02974v1
- Date: Sun, 03 May 2026 17:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.554295
- Title: PHBench: A Benchmark for Predicting Startup Series A Funding from Product Hunt Launch Signals
- Title(参考訳): PHBench:プロダクトハント・ローンチ・シグナルによるスタートアップ・シリーズAの予測ベンチマーク
- Authors: Yagiz Ihlamur, Ben Griffin, Rick Chen,
- Abstract要約: Product Huntの構造化されたローンチシグナルには、シリーズAの資金調達結果に関する統計的に重要な予測情報が含まれている。
2019年から2025年までの67,292件のProduct Hunt記事からPHBenchを構築し、決定論的ドメインマッチングを通じてCrunchbaseの資金調達記録と関連づけた。
打ち上げから18ヶ月以内に確認されたシリーズAは528件(陽性率は0.78%)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured launch signals on Product Hunt contain statistically significant predictive information for Series A funding outcomes. We construct PHBench from 67,292 featured Product Hunt posts spanning 2019-2025, linked to Crunchbase funding records via deterministic domain matching, identifying 528 verified Series A raises within 18 months of launch (positive rate: 0.78%). Our best-performing model, a three-component ensemble (ENS_avg, ENS_ISO, XGB) selected by validation F0.5, achieves F0.5 = 0.097 and AP = 0.037 (95% CI: 0.024-0.072; 4.7x lift over random) on the private held-out test set (103 positives). A paired bootstrap confirms a statistically credible advantage over the logistic regression baseline (AP delta: +0.013, 95% CI: [0.004, 0.039], p < 0.001; F0.5 delta: +0.056, 95% CI: [0.006, 0.122], p = 0.016). Validation-set metrics (F0.5 = 0.284, AP = 0.126) reflect best-of-144 selection bias on 53 positives and are reported for benchmark reproducibility only. We further evaluate three zero-shot Gemini models (Gemini 2.5 Flash, Gemini 3 Flash, and Gemini 3.1 Pro) in an anonymized numerical setting. The best LLM achieves AP = 0.034 (Gemini 3 Flash), below the LR baseline AP of 0.044. Notably, the most capable Gemini variant (Gemini 3.1 Pro, AP = 0.023) performs worst -- an unexpected pattern that warrants further investigation across providers and prompting strategies. Both ML and LLM models show the same temporal performance decay tracking the 2020-2021 funding boom and subsequent contraction, confirming the dataset captures genuine market structure rather than noise. PHBench provides a reproducible framework comprising public training, validation, and blind test splits; 61 engineered features; a five-metric evaluation harness; and a public leaderboard at https://phbench.com. All code, baseline models, and anonymized dataset splits are publicly available.
- Abstract(参考訳): Product Huntの構造化されたローンチシグナルには、シリーズAの資金調達結果に関する統計的に重要な予測情報が含まれている。
2019年から2025年までの67,292件のプロダクトハント記事からPHBenchを構築し、決定論的ドメインマッチングを通じてCrunchbaseの資金調達記録にリンクし、18ヶ月以内に528件の確認されたシリーズA(正の率:0.78%)を達成した。
F0.5 で選択した三成分アンサンブル (ENS_avg, ENS_ISO, XGB) は F0.5 = 0.097 と AP = 0.037 (95% CI: 0.024-0.072; 4.7x lift over random) を達成する。
対のブートストラップは、ロジスティック回帰ベースライン(AP delta: +0.013, 95% CI: [0.004, 0.039], p < 0.001; F0.5 delta: +0.056, 95% CI: [0.006, 0.122], p = 0.016)に対する統計的に信頼できる優位性を確認する。
評価基準値(F0.5 = 0.284, AP = 0.126)は、53の正の144選択バイアスを反映し、ベンチマーク再現性のみを報告している。
さらに、匿名化された数値設定で、3つのゼロショットGeminiモデル(Gemini 2.5 Flash、Gemini 3 Flash、およびGemini 3.1 Pro)を評価する。
最高の LLM は AP = 0.034 (Gemini 3 Flash) であり、LRベースライン AP は 0.044 である。
特に、最も有能なジェミニ変種(Gemini 3.1 Pro、AP = 0.023)は、最悪のパターンを実行します。
MLモデルとLLMモデルの両方で、2020-2021年の資金調達ブームとその後の縮小を追跡し、データセットがノイズではなく実際の市場構造をキャプチャすることを確認した。
PHBenchは、パブリックトレーニング、検証、ブラインドテストの分割、61のエンジニアリングされた機能、5メトリック評価ハーネス、https://phbench.comの公開リーダボードを含む再現可能なフレームワークを提供する。
すべてのコード、ベースラインモデル、匿名化されたデータセットの分割が公開されている。
関連論文リスト
- When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models [2.064923532131528]
デプロイされた言語モデルは、正しいものとフォーマットに準拠した出力を生成する必要がある。
本稿では,GSM8KとMATHという2つの数学的ベンチマークを用いて,この構造化出力信頼性ギャップについて検討する。
対象モデルへのブラックボックスAPIアクセスのみを必要とする反復的なシステムプロンプトであるAloLabを開発した。
論文 参考訳(メタデータ) (2026-05-04T09:07:44Z) - Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified Score [14.579552536669217]
一般データ保護規制法に準拠するためには、ビジョンランゲージモデル(VLM)のアンラーニングが必要である。
マルチモーダル・アンラーニングにおける信頼性の最初の研究について述べる。
統一品質スコア(Unified Quality Score, UQS)は, 各計量のスピアマン相関と距離の関係から得られる重みを持つ計量である。
論文 参考訳(メタデータ) (2026-05-04T04:13:00Z) - The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive [0.0]
CPUのみのスコアリングプリミティブはトークン当たり2.6マイクロ秒で動作する。
トークンのランク周波数分布は同じ2パラメータのMandelbrotランキング分布に収束する。
利用可能な場合にモデルログの確率で構成し、クローズドAPIで使用可能なランクオンリーモードに分解するシングルパススコアリングプリミティブを導出する。
論文 参考訳(メタデータ) (2026-04-28T13:35:31Z) - An Integrated Framework for Explainable, Fair, and Observable Hospital Readmission Prediction: Development and Validation on MIMIC-IV [0.0]
MIMIC-IVデータベースから成人415231名を対象にコホートを構築した。
このフレームワークは、競争力のあるパフォーマンス、臨床的に実行可能な説明、強力な人口シェアを提供する。
論文 参考訳(メタデータ) (2026-04-24T13:21:44Z) - Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench [0.0]
AgentProp-Benchは4つのドメインに2300のトレースを持つ2,000タスクのベンチマークである。
我々は、判断信頼性を定量化し、エラーの伝播を特徴づけ、実行時の緩和を評価する。
すべてのコード、データ、トレース、および人間のラベルはhttps://github.com/bhaskargurram-ai/agenthallu-bench.orgで公開されている。
論文 参考訳(メタデータ) (2026-04-17T21:15:35Z) - FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization [84.58281577727566]
本稿では,大規模言語モデルにおける推論ボトルネックを克服する強化学習アルゴリズムであるFuture-KL Influenced Policy Optimization (FIPO)を提案する。
FIPOは、割引先KLの分岐をポリシー更新に組み込むことでこの問題に対処し、その後の軌道行動への影響に基づいてトークンを再重み付けする密集した有利な定式化を作成する。
Qwen2.5-32Bで評価され、FIPOは平均チェーン長を約4,000から10,000以上のトークンに拡張し、AIME 2024 Pass@1の精度を50.0%から58.0%に向上させた。
論文 参考訳(メタデータ) (2026-03-20T10:24:50Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。