Fugu-MT 論文翻訳(概要): Solving the Data Sparsity Problem in Predicting the Success of the Startups with Machine Learning Methods

論文の概要: Solving the Data Sparsity Problem in Predicting the Success of the Startups with Machine Learning Methods

arxiv url: http://arxiv.org/abs/2112.07985v1
Date: Wed, 15 Dec 2021 09:21:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-16 13:59:40.330606
Title: Solving the Data Sparsity Problem in Predicting the Success of the Startups with Machine Learning Methods
Title（参考訳）: 機械学習手法によるスタートアップの成功予測におけるデータスパーシティ問題の解法
Authors: Dafei Yin, Jing Li, Gaosheng Wu
Abstract要約: Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。
参考スコア（独自算出の注目度）: 2.939434965353219
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Predicting the success of startup companies is of great importance for both startup companies and investors. It is difficult due to the lack of available data and appropriate general methods. With data platforms like Crunchbase aggregating the information of startup companies, it is possible to predict with machine learning algorithms. Existing research suffers from the data sparsity problem as most early-stage startup companies do not have much data available to the public. We try to leverage the recent algorithms to solve this problem. We investigate several machine learning algorithms with a large dataset from Crunchbase. The results suggest that LightGBM and XGBoost perform best and achieve 53.03% and 52.96% F1 scores. We interpret the predictions from the perspective of feature contribution. We construct portfolios based on the models and achieve high success rates. These findings have substantial implications on how machine learning methods can help startup companies and investors.
Abstract（参考訳）: スタートアップ企業の成功を予測することは、スタートアップ企業と投資家の両方にとって非常に重要だ。利用可能なデータや適切な一般的な方法がないため、難しい。 crunchbaseのようなデータプラットフォームがスタートアップ企業の情報を集約することで、機械学習アルゴリズムで予測することができる。既存の研究は、多くのアーリーステージのスタートアップ企業が一般に利用可能なデータを持っていないため、データスパシティの問題に悩まされている。我々はこの問題を解決するために最近のアルゴリズムを活用しようとしている。 Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。特徴貢献の観点から予測を解釈する。モデルに基づいてポートフォリオを構築し、高い成功率を達成する。これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。

関連論文リスト

Decision Making under Imperfect Recall: Algorithms and Benchmarks [77.12503122836422]
本稿では,不完全-再コール決定問題に対する最初のベンチマークスイートを紹介する。私たちのベンチマークでは、AIシステムのプライバシに関するものなど、さまざまな問題タイプを捉えています。このような問題における一階最適戦略を見つけるために,異なるアルゴリズムの性能を評価する。
論文参考訳（メタデータ） (2026-02-16T23:19:01Z)
Predicting Startup Success Using Large Language Models: A Novel In-Context Learning Approach [32.510120225056944]
本稿では,大規模言語モデル(LLM)を用いたスタートアップ成功予測のためのコンテキスト内学習フレームワークを提案する。具体的には,k-nearest-neighbor-based in-context learning framework(kNN-ICL)を提案する。 Crunchbaseの実際のプロファイルを用いて、kNN-ICLアプローチは、教師付き機械学習ベースラインやバニラインコンテキスト学習よりも高い予測精度を実現する。
論文参考訳（メタデータ） (2026-01-23T09:08:52Z)
Exposing the Copycat Problem of Imitation-based Planner: A Novel Closed-Loop Simulator, Causal Benchmark and Joint IL-RL Baseline [49.51385135697656]
機械学習ベースの計画では、模倣学習(IL)が一般的なアルゴリズムである。主に、教師付き軌跡データから直接ポリシーを学習する。学習した方針が根本的駆動原理を真に理解しているかどうかを判断することは依然として困難である。本研究は、模倣と強化学習の両方をサポートする新しいクローズドループシミュレータを提案する。
論文参考訳（メタデータ） (2025-04-20T18:51:26Z)
A Fused Large Language Model for Predicting Startup Success [21.75303916815358]
我々は、成功したスタートアップをベンチャーキャピタルプラットフォームに配置する目的で、機械学習アプローチを開発する。具体的には、スタートアップの成功を予測するために、調整された、融合した大きな言語モデルを開発し、訓練し、評価します。 Crunchbaseのオンラインプロフィール20,172件を使って、われわれの混ざった大きな言語モデルはスタートアップの成功を予測することができる。
論文参考訳（メタデータ） (2024-09-05T16:22:31Z)
MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。総合的な機械学習評価ベンチマークであるMUSEを提案する。人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文参考訳（メタデータ） (2024-07-08T23:47:29Z)
Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文参考訳（メタデータ） (2024-03-12T08:40:21Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Problem-Solving Guide: Predicting the Algorithm Tags and Difficulty for Competitive Programming Problems [7.955313479061445]
ほとんどのテック企業は、Google、Meta、Amazonなど、アルゴリズムの問題を解決する能力を必要としている。本研究は,アルゴリズムタグをエンジニアや開発者の有用なツールとして予測する作業に対処する。また,この問題の解決に要する時間を計算するための有用なガイダンスとして,アルゴリズム問題の難易度を予測することを検討する。
論文参考訳（メタデータ） (2023-10-09T15:26:07Z)
Startup success prediction and VC portfolio simulation using CrunchBase data [1.7897779505837144]
本稿では、主要な成功のマイルストーンを予測することを目的とした、シリーズBおよびシリーズCの投資ステージにおけるスタートアップに焦点を当てる。スタートアップの成功を予測するための新しいディープラーニングモデルを導入し、資金調達指標、創業者の特徴、業界カテゴリなど、さまざまな要素を統合する。私たちの研究は、スタートアップの成功を予測する上で、ディープラーニングモデルと代替の非構造化データによるかなりの可能性を実証しています。
論文参考訳（メタデータ） (2023-09-27T10:22:37Z)
Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文参考訳（メタデータ） (2023-02-09T06:46:42Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
Can We Do Better Than Random Start? The Power of Data Outsourcing [9.677679780556103]
多くの組織は豊富なデータにアクセスできますが、データを処理するための計算能力がありません。そこで本研究では,少量のアウトソースデータを用いて優れた初期点を求めるシミュレーションに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-17T05:34:36Z)
MatRec: Matrix Factorization for Highly Skewed Dataset [4.658166900129066]
本稿では,行列分解の枠組みにおける問題を解く新しいアルゴリズムを提案する。提案手法は,一般的なレコメンデータシステムアルゴリズムを用いて,好意的な結果を生成する。
論文参考訳（メタデータ） (2020-11-09T12:55:38Z)
Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文参考訳（メタデータ） (2020-06-17T18:14:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。