論文の概要: Improving Startup Success with Text Analysis
- arxiv url: http://arxiv.org/abs/2312.06236v1
- Date: Mon, 11 Dec 2023 09:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:19:08.051080
- Title: Improving Startup Success with Text Analysis
- Title(参考訳): テキスト分析によるスタートアップ成功の改善
- Authors: Emily Gavrilenko, Foaad Khosmood, Mahdi Rastad and Sadra Amiri
Moghaddam
- Abstract要約: より良い予測を達成するために、ソースと機能の数を大きく拡大し、多様化させます。
Crunchbase、Google Search API、およびTwitter(現在はX)から収集されたデータは、企業が資金調達を行うかどうかを予測するために使用される。
合計10の機械学習モデルも、最高のパフォーマンスで評価されている。
- 参考スコア(独自算出の注目度): 0.21847754147782888
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Investors are interested in predicting future success of startup companies,
preferably using publicly available data which can be gathered using free
online sources. Using public-only data has been shown to work, but there is
still much room for improvement. Two of the best performing prediction
experiments use 17 and 49 features respectively, mostly numeric and categorical
in nature. In this paper, we significantly expand and diversify both the
sources and the number of features (to 171) to achieve better prediction. Data
collected from Crunchbase, the Google Search API, and Twitter (now X) are used
to predict whether a company will raise a round of funding within a fixed time
horizon. Much of the new features are textual and the Twitter subset include
linguistic metrics such as measures of passive voice and parts-of-speech. A
total of ten machine learning models are also evaluated for best performance.
The adaptable model can be used to predict funding 1-5 years into the future,
with a variable cutoff threshold to favor either precision or recall.
Prediction with comparable assumptions generally achieves F scores above 0.730
which outperforms previous attempts in the literature (0.531), and does so with
fewer examples. Furthermore, we find that the vast majority of the performance
impact comes from the top 18 of 171 features which are mostly generic company
observations, including the best performing individual feature which is the
free-form text description of the company.
- Abstract(参考訳): 投資家は、スタートアップ企業の将来の成功を予測することに興味があり、好ましくは無料のオンラインソースを使って収集できる公開データを利用する。
パブリックなデータを使うことはうまくいくが、まだ改善の余地がたくさんある。
ベストパフォーマンス予測実験の2つはそれぞれ17と49の機能を使っており、そのほとんどが自然界の数値とカテゴリーである。
本稿では,より優れた予測を実現するため,情報源と特徴数(171)を大きく拡大し,多様化する。
Crunchbase、Google Search API、Twitter(現在はX)から収集したデータは、企業が固定時間内に資金調達を行うかどうかを予測するために使用される。
新機能の多くはテキストで、Twitterのサブセットには受動的音声や音声の一部の計測などの言語指標が含まれている。
合計10の機械学習モデルも最高のパフォーマンスで評価されている。
適応可能なモデルは、将来への資金提供を1~5年予測するために使用することができる。
比較仮定による予測は、一般的に0.730以上のfスコアを達成し、文献における以前の試み(0.531)を上回り、少ない例で達成する。
さらに、パフォーマンスへの影響の大部分は、同社のフリーフォームのテキスト記述である最高の個々の機能を含む、一般的な企業の観察を主とする171機能のトップ18からなっています。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - AutoCast++: Enhancing World Event Prediction with Zero-shot Ranking-based Context Retrieval [9.357912396498142]
ゼロショットランキングに基づくコンテキスト検索システムであるAutoCast++を紹介する。
提案手法は、まずゼロショットの質問パス関連性に基づいて記事を再ランク付けし、セマンティックな関連するニュースに注目する。
我々は、ドメイン固有のトレーニングを必要とせずに、関連性評価と記事要約を行う。
論文 参考訳(メタデータ) (2023-10-03T08:34:44Z) - Context-Based Tweet Engagement Prediction [0.0]
この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:36:57Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Out-of-Vocabulary Entities in Link Prediction [1.9036571490366496]
リンク予測はしばしば、埋め込みの品質を評価するプロキシとして使用される。
ベンチマークはアルゴリズムの公正な比較に欠かせないため、より良いソリューションを開発するための確固たる基盤を提供するため、その品質が確実に確保される。
我々は、そのようなエンティティの発見と削除のためのアプローチの実装を提供し、データセットWN18RR、FB15K-237、YAGO3-10の修正版を提供する。
論文 参考訳(メタデータ) (2021-05-26T12:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。