論文の概要: When Career Data Runs Out: Structured Feature Engineering and Signal Limits for Founder Success Prediction
- arxiv url: http://arxiv.org/abs/2604.00339v1
- Date: Wed, 01 Apr 2026 00:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.772252
- Title: When Career Data Runs Out: Structured Feature Engineering and Signal Limits for Founder Success Prediction
- Title(参考訳): キャリアデータが流出したとき: 創業者の成功予測のための構造化機能エンジニアリングと信号制限
- Authors: Yagiz Ihlamur,
- Abstract要約: ファウンダーのキャリアデータからスタートアップの成功を予測することは難しい。
私たちは、生のフィールド(仕事、教育、出口)から直接構造化された28の機能を設計し、決定論的ルールレイヤとXGの強化された切り株を組み合わせました。
我々のモデルは、ゼロショットLCMベースラインに対するVal F0.5 = 0.3030, Precision = 0.3333, Recall = 0.2222 -- +17.7ppの改善を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting startup success from founder career data is hard. The signal is weak, the labels are rare (9%), and most founders who succeed look almost identical to those who fail. We engineer 28 structured features directly from raw JSON fields -- jobs, education, exits -- and combine them with a deterministic rule layer and XGBoost boosted stumps. Our model achieves Val F0.5 = 0.3030, Precision = 0.3333, Recall = 0.2222 -- a +17.7pp improvement over the zero-shot LLM baseline. We then run a controlled experiment: extract 9 features from the prose field using Claude Haiku, at 67% and 100% dataset coverage. LLM features capture 26.4% of model importance but add zero CV signal (delta = -0.05pp). The reason is structural: anonymised_prose is generated from the same JSON fields we parse directly -- it is a lossy re-encoding, not a richer source. The ceiling (CV ~= 0.25, Val ~= 0.30) reflects the information content of this dataset, not a modeling limitation. In characterizing where the signal runs out and why, this work functions as a benchmark diagnostic -- one that points directly to what a richer dataset would need to include.
- Abstract(参考訳): ファウンダーのキャリアデータからスタートアップの成功を予測することは難しい。
信号は弱く、ラベルは珍しい(9%)。
私たちは、生のJSONフィールド(ジョブ、教育、出口)から直接構造化された28の機能を設計し、決定論的ルール層とXGBoostの強化された切り株を組み合わせました。
我々のモデルは、ゼロショットLCMベースラインに対するVal F0.5 = 0.3030, Precision = 0.3333, Recall = 0.2222 -- a +17.7ppの改善を達成する。
次に、制御された実験を行い、Claude Haikuを使って散文フィールドから9つの特徴を抽出し、67%と100%のデータセットカバレッジを得る。
LLMの機能は26.4%のモデルをキャプチャするが、ゼロCV信号(デルタ=0.05pp)を追加する。
匿名化_proseは私たちが直接解析するJSONフィールドから生成されます。
天井(CV ~= 0.25, Val ~= 0.30)は、モデリング制限ではなく、このデータセットの情報内容を反映している。
信号の出所とその理由を特徴づける上で、この作業はベンチマーク診断として機能する -- よりリッチなデータセットが含めるべきものを直接指している。
関連論文リスト
- APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークである textbfAPEX-EM を提案する。
APEX-EMの精度は89.6%、メモリなしでは41.3%(+48.3pp)であり、オラクルと検索の上限を超えている。
BigCodeBenchでは、53.9%のベースライン(+29.4pp)から83.3%のSRに達し、同じ冷凍バックボーン条件下でMemRLのcitememrl2025 +11.0ppを超える。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - Towards Improved Sentence Representations using Token Graphs [41.412173502714225]
GLOTは構造を意識したプールモジュールで、リレーショナル学習後にアグリゲーションとしてプールを再構成する。
トークンの90%がランダムなイントラクタである診断ストレステストでは、GLOTは97%以上の精度を維持し、ベースラインメソッドは崩壊する。
GLUEやMTEBのようなベンチマークの最先端技術と競合し、トレーニング可能なパラメータは20倍少なく、パラメータ効率のよい微調整手法と比較してトレーニング時間を100倍以上高速化する。
論文 参考訳(メタデータ) (2026-03-03T09:00:01Z) - CauScientist: Teaching LLMs to Respect Data for Causal Discovery [25.77810792733626]
CauScientistは「データ科学者」と確率統計を厳密な「検証者」として相乗化するフレームワークである
実験の結果、CauScientistは純粋にデータ駆動のベースラインよりも大幅に優れていた。
CauScientistは37ノードグラフ上のQwen3-32Bと比較して、構造ハミング距離(SHD)を44.0%削減する。
論文 参考訳(メタデータ) (2026-01-20T05:32:22Z) - Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning [46.765013720309064]
大規模言語モデル(LLM)における長期文脈推論は、チェーン・オブ・ソート(CoT)推論による認知能力の向上を実証している。
このようなモデルのトレーニングは通常、数学やプログラミングのような推論に基づく問題において、検証可能な報酬(RLVR)を用いた強化学習によって行われる。
我々は,教師と学生の両方の役割を同一のベース言語モデルで担う自己蒸留技術であるtextbfSemantic Soft Bootstrapping (SSB) を提案する。
論文 参考訳(メタデータ) (2025-12-04T18:59:18Z) - Input-Time Scaling [2.2917707112773598]
現在のLarge Language Models (LLM) は通常、大規模にキュレートされたデータセットでポストトレーニングされる。
本稿では,クエリにリソースを配置することで,従来のスケーリング手法を補完する新しいスケーリングパラダイムであるInput-Time Scalingを提案する。
データ品質の低いデータセットが、パフォーマンスを向上できるのに驚きました。
論文 参考訳(メタデータ) (2025-08-19T09:04:13Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen! [77.5835471257498]
プロプライエタリなデータによるオープンソースのLarge Language Models(LLM)の微調整は、現在、ダウンストリーム開発者にとって標準のプラクティスとなっている。
オープンソースLLMの作成者は、後にプライベートな下流の微調整データを抽出することができる。
論文 参考訳(メタデータ) (2025-05-21T15:32:14Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [70.03602551880526]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。