論文の概要: From Limited Data to Rare-event Prediction: LLM-powered Feature Engineering and Multi-model Learning in Venture Capital
- arxiv url: http://arxiv.org/abs/2509.08140v1
- Date: Tue, 09 Sep 2025 20:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.244652
- Title: From Limited Data to Rare-event Prediction: LLM-powered Feature Engineering and Multi-model Learning in Venture Capital
- Title(参考訳): 限られたデータから希少な予測へ:ベンチャー・キャピタルにおけるLLMを活用した特徴工学と多モデル学習
- Authors: Mihir Kumar, Aaron Ontoyin Yin, Zakari Salifu, Kelvin Amoaba, Afriyie Kwesi Samuel, Fuat Alican, Yigit Ihlamur,
- Abstract要約: 本稿では,大規模言語モデル (LLM) とマルチモデル機械学習 (ML) アーキテクチャを統合することで,希少かつ高インパクトな結果を予測する枠組みを提案する。
構造化されていないデータから複雑な信号を抽出・合成するために,LLMを利用した特徴工学を用いる。
我々はこのフレームワークをVC(Venture Capital)の分野に適用し、投資家は限られた、騒々しいアーリーステージデータでスタートアップを評価する必要がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework for predicting rare, high-impact outcomes by integrating large language models (LLMs) with a multi-model machine learning (ML) architecture. The approach combines the predictive strength of black-box models with the interpretability required for reliable decision-making. We use LLM-powered feature engineering to extract and synthesize complex signals from unstructured data, which are then processed within a layered ensemble of models including XGBoost, Random Forest, and Linear Regression. The ensemble first produces a continuous estimate of success likelihood, which is then thresholded to produce a binary rare-event prediction. We apply this framework to the domain of Venture Capital (VC), where investors must evaluate startups with limited and noisy early-stage data. The empirical results show strong performance: the model achieves precision between 9.8X and 11.1X the random classifier baseline in three independent test subsets. Feature sensitivity analysis further reveals interpretable success drivers: the startup's category list accounts for 15.6% of predictive influence, followed by the number of founders, while education level and domain expertise contribute smaller yet consistent effects.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) とマルチモデル機械学習 (ML) アーキテクチャを統合することで,希少かつ高インパクトな結果を予測する枠組みを提案する。
このアプローチはブラックボックスモデルの予測強度と、信頼できる意思決定に必要な解釈可能性を組み合わせる。
我々は、LLMを利用した特徴工学を用いて、構造化されていないデータから複雑な信号を抽出し、合成し、XGBoost、Random Forest、Linear Regressionといったモデルの階層化アンサンブル内で処理する。
アンサンブルはまず成功確率を連続的に推定し、しきい値を設定して2値のレアイベント予測を生成する。
我々はこのフレームワークをVC(Venture Capital)の分野に適用し、投資家は限られた、騒々しいアーリーステージデータでスタートアップを評価する必要がある。
モデルは9.8Xから11.1Xの間の精度を、3つの独立したテストサブセットでランダム分類器のベースラインに達成する。
スタートアップのカテゴリーリストは、予測的影響の15.6%を占め、創業者の数が続く一方、教育レベルとドメインの専門知識は、より小さいが一貫した効果をもたらす。
関連論文リスト
- Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets [0.0]
大規模言語モデル(LLM)は、下流タスクを明示的に微調整することなく、構造化された入力に対して予測タスクを実行することができる。
分類,回帰,クラスタリングタスクのための小規模構造化データセット上でのLCMの実証関数近似能力について検討した。
以上の結果から,LLMは構造化データの汎用的予測エンジンとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-24T15:00:51Z) - Embedding Domain-Specific Knowledge from LLMs into the Feature Engineering Pipeline [0.0]
本稿では,Large Language Models (LLMs) を,データセットに知識を加えるための初期機能構築ステップとして用いることを提案する。
その結果、進化はより速く収束し、計算資源を節約できることがわかった。
論文 参考訳(メタデータ) (2025-03-27T04:48:58Z) - Comprehensive Benchmarking of Machine Learning Methods for Risk Prediction Modelling from Large-Scale Survival Data: A UK Biobank Study [0.0]
大規模コホート研究と機械学習(ML)アルゴリズムの多種多様なツールキットにより、このような生存課題の取り組みが促進されている。
我々は,線形学習モデルからディープラーニング(DL)モデルまで,8つのサバイバルタスク実装のベンチマークを試みた。
n = 5,000からn = 250,000のサンプルサイズで、異なるアーキテクチャがいかにうまくスケールするかを評価した。
論文 参考訳(メタデータ) (2025-03-11T20:27:20Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - SSFF: Investigating LLM Predictive Capabilities for Startup Success through a Multi-Agent Framework with Enhanced Explainability and Performance [0.16385815610837165]
スタートアップ成功予測フレームワーク(Startup Success Forecasting Framework)は、ベンチャーキャピタルアナリストの推論をエミュレートする自律システムである。
創業者セグメンテーションを活用することで、L5創業者が率いるスタートアップは、L1創業者が率いるスタートアップの3.79倍の確率で成功する。
我々のフレームワークは予測精度を大幅に向上させ、GPT 4o miniよりも108.3%改善し、GPT 4oより30.8%改善した。
論文 参考訳(メタデータ) (2024-05-29T19:07:42Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。