論文の概要: Solving the Data Sparsity Problem in Predicting the Success of the
Startups with Machine Learning Methods
- arxiv url: http://arxiv.org/abs/2112.07985v1
- Date: Wed, 15 Dec 2021 09:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 13:59:40.330606
- Title: Solving the Data Sparsity Problem in Predicting the Success of the
Startups with Machine Learning Methods
- Title(参考訳): 機械学習手法によるスタートアップの成功予測におけるデータスパーシティ問題の解法
- Authors: Dafei Yin, Jing Li, Gaosheng Wu
- Abstract要約: Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。
その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。
これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。
- 参考スコア(独自算出の注目度): 2.939434965353219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the success of startup companies is of great importance for both
startup companies and investors. It is difficult due to the lack of available
data and appropriate general methods. With data platforms like Crunchbase
aggregating the information of startup companies, it is possible to predict
with machine learning algorithms. Existing research suffers from the data
sparsity problem as most early-stage startup companies do not have much data
available to the public. We try to leverage the recent algorithms to solve this
problem. We investigate several machine learning algorithms with a large
dataset from Crunchbase. The results suggest that LightGBM and XGBoost perform
best and achieve 53.03% and 52.96% F1 scores. We interpret the predictions from
the perspective of feature contribution. We construct portfolios based on the
models and achieve high success rates. These findings have substantial
implications on how machine learning methods can help startup companies and
investors.
- Abstract(参考訳): スタートアップ企業の成功を予測することは、スタートアップ企業と投資家の両方にとって非常に重要だ。
利用可能なデータや適切な一般的な方法がないため、難しい。
crunchbaseのようなデータプラットフォームがスタートアップ企業の情報を集約することで、機械学習アルゴリズムで予測することができる。
既存の研究は、多くのアーリーステージのスタートアップ企業が一般に利用可能なデータを持っていないため、データスパシティの問題に悩まされている。
我々はこの問題を解決するために最近のアルゴリズムを活用しようとしている。
Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。
その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。
特徴貢献の観点から予測を解釈する。
モデルに基づいてポートフォリオを構築し、高い成功率を達成する。
これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Problem-Solving Guide: Predicting the Algorithm Tags and Difficulty for
Competitive Programming Problems [10.692589986082922]
ほとんどのテック企業は、Google、Meta、Amazonなど、アルゴリズムの問題を解決する能力を必要としている。
本研究は,アルゴリズムタグをエンジニアや開発者の有用なツールとして予測する作業に対処する。
また,この問題の解決に要する時間を計算するための有用なガイダンスとして,アルゴリズム問題の難易度を予測することを検討する。
論文 参考訳(メタデータ) (2023-10-09T15:26:07Z) - Startup success prediction and VC portfolio simulation using CrunchBase
data [1.7897779505837144]
本稿では、主要な成功のマイルストーンを予測することを目的とした、シリーズBおよびシリーズCの投資ステージにおけるスタートアップに焦点を当てる。
スタートアップの成功を予測するための新しいディープラーニングモデルを導入し、資金調達指標、創業者の特徴、業界カテゴリなど、さまざまな要素を統合する。
私たちの研究は、スタートアップの成功を予測する上で、ディープラーニングモデルと代替の非構造化データによるかなりの可能性を実証しています。
論文 参考訳(メタデータ) (2023-09-27T10:22:37Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Using Deep Learning to Find the Next Unicorn: A Practical Synthesis [61.79479418606679]
Venture Capital(VC)は、ユニコーンスタートアップを早期に特定し、投資し、高いリターンを得ることを期待している。
過去20年間、業界は従来の統計的アプローチから機械学習ベースのものへと移行してきた。
本研究は,DLのライフサイクル全体をカバーする,DLベースのアプローチに関する文献レビューと合成を行う。
論文 参考訳(メタデータ) (2022-10-18T13:11:16Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Can We Do Better Than Random Start? The Power of Data Outsourcing [9.677679780556103]
多くの組織は豊富なデータにアクセスできますが、データを処理するための計算能力がありません。
そこで本研究では,少量のアウトソースデータを用いて優れた初期点を求めるシミュレーションに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-17T05:34:36Z) - MatRec: Matrix Factorization for Highly Skewed Dataset [4.658166900129066]
本稿では,行列分解の枠組みにおける問題を解く新しいアルゴリズムを提案する。
提案手法は,一般的なレコメンデータシステムアルゴリズムを用いて,好意的な結果を生成する。
論文 参考訳(メタデータ) (2020-11-09T12:55:38Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。