論文の概要: Solving the Data Sparsity Problem in Predicting the Success of the
Startups with Machine Learning Methods
- arxiv url: http://arxiv.org/abs/2112.07985v1
- Date: Wed, 15 Dec 2021 09:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 13:59:40.330606
- Title: Solving the Data Sparsity Problem in Predicting the Success of the
Startups with Machine Learning Methods
- Title(参考訳): 機械学習手法によるスタートアップの成功予測におけるデータスパーシティ問題の解法
- Authors: Dafei Yin, Jing Li, Gaosheng Wu
- Abstract要約: Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。
その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。
これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。
- 参考スコア(独自算出の注目度): 2.939434965353219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting the success of startup companies is of great importance for both
startup companies and investors. It is difficult due to the lack of available
data and appropriate general methods. With data platforms like Crunchbase
aggregating the information of startup companies, it is possible to predict
with machine learning algorithms. Existing research suffers from the data
sparsity problem as most early-stage startup companies do not have much data
available to the public. We try to leverage the recent algorithms to solve this
problem. We investigate several machine learning algorithms with a large
dataset from Crunchbase. The results suggest that LightGBM and XGBoost perform
best and achieve 53.03% and 52.96% F1 scores. We interpret the predictions from
the perspective of feature contribution. We construct portfolios based on the
models and achieve high success rates. These findings have substantial
implications on how machine learning methods can help startup companies and
investors.
- Abstract(参考訳): スタートアップ企業の成功を予測することは、スタートアップ企業と投資家の両方にとって非常に重要だ。
利用可能なデータや適切な一般的な方法がないため、難しい。
crunchbaseのようなデータプラットフォームがスタートアップ企業の情報を集約することで、機械学習アルゴリズムで予測することができる。
既存の研究は、多くのアーリーステージのスタートアップ企業が一般に利用可能なデータを持っていないため、データスパシティの問題に悩まされている。
我々はこの問題を解決するために最近のアルゴリズムを活用しようとしている。
Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。
その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。
特徴貢献の観点から予測を解釈する。
モデルに基づいてポートフォリオを構築し、高い成功率を達成する。
これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。
関連論文リスト
- A Fused Large Language Model for Predicting Startup Success [21.75303916815358]
我々は、成功したスタートアップをベンチャーキャピタルプラットフォームに配置する目的で、機械学習アプローチを開発する。
具体的には、スタートアップの成功を予測するために、調整された、融合した大きな言語モデルを開発し、訓練し、評価します。
Crunchbaseのオンラインプロフィール20,172件を使って、われわれの混ざった大きな言語モデルはスタートアップの成功を予測することができる。
論文 参考訳(メタデータ) (2024-09-05T16:22:31Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Problem-Solving Guide: Predicting the Algorithm Tags and Difficulty for Competitive Programming Problems [7.955313479061445]
ほとんどのテック企業は、Google、Meta、Amazonなど、アルゴリズムの問題を解決する能力を必要としている。
本研究は,アルゴリズムタグをエンジニアや開発者の有用なツールとして予測する作業に対処する。
また,この問題の解決に要する時間を計算するための有用なガイダンスとして,アルゴリズム問題の難易度を予測することを検討する。
論文 参考訳(メタデータ) (2023-10-09T15:26:07Z) - Startup success prediction and VC portfolio simulation using CrunchBase
data [1.7897779505837144]
本稿では、主要な成功のマイルストーンを予測することを目的とした、シリーズBおよびシリーズCの投資ステージにおけるスタートアップに焦点を当てる。
スタートアップの成功を予測するための新しいディープラーニングモデルを導入し、資金調達指標、創業者の特徴、業界カテゴリなど、さまざまな要素を統合する。
私たちの研究は、スタートアップの成功を予測する上で、ディープラーニングモデルと代替の非構造化データによるかなりの可能性を実証しています。
論文 参考訳(メタデータ) (2023-09-27T10:22:37Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Can We Do Better Than Random Start? The Power of Data Outsourcing [9.677679780556103]
多くの組織は豊富なデータにアクセスできますが、データを処理するための計算能力がありません。
そこで本研究では,少量のアウトソースデータを用いて優れた初期点を求めるシミュレーションに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-17T05:34:36Z) - MatRec: Matrix Factorization for Highly Skewed Dataset [4.658166900129066]
本稿では,行列分解の枠組みにおける問題を解く新しいアルゴリズムを提案する。
提案手法は,一般的なレコメンデータシステムアルゴリズムを用いて,好意的な結果を生成する。
論文 参考訳(メタデータ) (2020-11-09T12:55:38Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。