論文の概要: Random Rule Forest (RRF): Interpretable Ensembles of LLM-Generated Questions for Predicting Startup Success
- arxiv url: http://arxiv.org/abs/2505.24622v2
- Date: Mon, 15 Sep 2025 18:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.597659
- Title: Random Rule Forest (RRF): Interpretable Ensembles of LLM-Generated Questions for Predicting Startup Success
- Title(参考訳): ランダムルールフォレスト(RRF):スタートアップ成功予測のためのLCM生成質問の解釈アンサンブル
- Authors: Ben Griffin, Diego Vidaurre, Ugur Koyluoglu, Joseph Ternasky, Fuat Alican, Yigit Ihlamur,
- Abstract要約: 本稿では,Landom Rule Forest (RRF) という,Large Language Model (LLM) を用いた簡単なYES/NO質問を自然言語で生成する軽量アンサンブル手法を紹介する。
RRFは保持データに対するランダムなベースラインよりも6.9倍の改善を実現している。
LLMの創造性とアンサンブル学習の厳密さを組み合わせることで、RFFは高い領域における意思決定に適した解釈可能な高精度な予測を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting rare outcomes such as startup success is central to venture capital, demanding models that are both accurate and interpretable. We introduce Random Rule Forest (RRF), a lightweight ensemble method that uses a large language model (LLM) to generate simple YES/NO questions in natural language. Each question functions as a weak learner, and their responses are combined using a threshold-based voting rule to form a strong, interpretable predictor. Applied to a dataset of 9,892 founders, RRF achieves a 6.9x improvement over a random baseline on held-out data; adding expert-crafted questions lifts this to 8x and highlights the value of human-LLM collaboration. Compared with zero- and few-shot baselines across three LLM architectures, RRF attains an F0.5 of 0.121, versus 0.086 for the best baseline (+0.035 absolute, +41% relative). By combining the creativity of LLMs with the rigor of ensemble learning, RRF delivers interpretable, high-precision predictions suitable for decision-making in high-stakes domains.
- Abstract(参考訳): スタートアップの成功のような稀な成果を予測することは、正確かつ解釈可能なモデルを要求するベンチャーキャピタルの中心である。
本稿では,Landom Rule Forest (RRF) という,Large Language Model (LLM) を用いた簡単なYES/NO質問を自然言語で生成する軽量アンサンブル手法を紹介する。
各質問は弱い学習者として機能し、その応答はしきい値に基づく投票規則を用いて結合され、強い解釈可能な予測器を形成する。
9,892人の創業者のデータセットに適用されたRAFは、保持データに対するランダムなベースラインよりも6.9倍の改善を実現している。
3つのLCMアーキテクチャのゼロと少数ショットのベースラインと比較すると、RFFはF0.5の0.121であり、最高のベースラインでは0.086である(+0.035絶対、+41%相対)。
LLMの創造性とアンサンブル学習の厳密さを組み合わせることで、RFFは高い領域における意思決定に適した解釈可能な高精度な予測を提供する。
関連論文リスト
- Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process [58.265053900416895]
LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。
スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。
推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。
最後に、最高スコア応答をベストアンサンブル出力として選択する。
論文 参考訳(メタデータ) (2025-12-29T05:25:49Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - LLM-AR: LLM-powered Automated Reasoning Framework [0.0]
大規模言語モデル(LLM)はすでにパターンを識別し、推論を効果的に行うことができるが、その変動精度は高い意思決定アプリケーションで採用されている。
本稿では,LLM生成物をProbLog自動推論エンジンによって実行される確率的ルールに分解する,ニューラルシンボリックシステムにインスパイアされたパイプラインLLM-ARを紹介する。
LLM-ARは59.5%の精度と8.7%のリコールを達成し、5.9倍のランダムなベースライン精度を達成し、人間の検査のためのすべての決定経路を公開する。
論文 参考訳(メタデータ) (2025-10-24T21:36:18Z) - From Limited Data to Rare-event Prediction: LLM-powered Feature Engineering and Multi-model Learning in Venture Capital [0.0]
本稿では,大規模言語モデル (LLM) とマルチモデル機械学習 (ML) アーキテクチャを統合することで,希少かつ高インパクトな結果を予測する枠組みを提案する。
構造化されていないデータから複雑な信号を抽出・合成するために,LLMを利用した特徴工学を用いる。
我々はこのフレームワークをVC(Venture Capital)の分野に適用し、投資家は限られた、騒々しいアーリーステージデータでスタートアップを評価する必要がある。
論文 参考訳(メタデータ) (2025-09-09T20:46:54Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Policy Induction: Predicting Startup Success via Explainable Memory-Augmented In-Context Learning [0.0]
本稿では,メモリ拡張型大規模言語モデルを用いた透過的かつデータ効率の高い投資決定フレームワークを提案する。
数ショット学習とコンテキスト内学習ループを組み合わせた,軽量なトレーニングプロセスを導入する。
我々のシステムは既存のベンチマークよりも、スタートアップの成功をはるかに正確に予測する。
論文 参考訳(メタデータ) (2025-05-27T16:57:07Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Reasoning-Based AI for Startup Evaluation (R.A.I.S.E.): A Memory-Augmented, Multi-Step Decision Framework [0.0]
本稿では,意思決定ツリーの解釈可能性と大規模言語モデル(LLM)の高度な推論能力のギャップを埋めて,スタートアップの成功を予測する新しいフレームワークを提案する。
我々の手法はチェーン・オブ・ソート・プロンプトを利用して詳細な推論ログを生成し、その後、構造化された人間の理解可能な論理ルールに蒸留する。
我々の手法は、従来の意思決定プロセスを強化するだけでなく、専門家の介入や継続的な政策改善を促進する。
論文 参考訳(メタデータ) (2025-04-16T13:53:42Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - CER: Confidence Enhanced Reasoning in LLMs [2.4392539322920763]
本稿では,大規模言語モデル応答の精度向上を目的とした不確実性認識フレームワークを提案する。
数理推論における数値結果や開領域生成における固有名詞などの中間回答の信頼度を定量化する。
その結果,新しい信頼度集計法の有効性を一貫して検証した。
論文 参考訳(メタデータ) (2025-02-20T15:16:42Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - SSFF: Investigating LLM Predictive Capabilities for Startup Success through a Multi-Agent Framework with Enhanced Explainability and Performance [0.16385815610837165]
スタートアップ成功予測フレームワーク(Startup Success Forecasting Framework)は、ベンチャーキャピタルアナリストの推論をエミュレートする自律システムである。
創業者セグメンテーションを活用することで、L5創業者が率いるスタートアップは、L1創業者が率いるスタートアップの3.79倍の確率で成功する。
我々のフレームワークは予測精度を大幅に向上させ、GPT 4o miniよりも108.3%改善し、GPT 4oより30.8%改善した。
論文 参考訳(メタデータ) (2024-05-29T19:07:42Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Pushing The Limit of LLM Capacity for Text Classification [27.684335455517417]
本稿では,特殊なテキスト分類 LLM を生成するための適応型ブースティングフレームワーク RGPT を提案する。
RGPTは,4つのベンチマークで平均1.36%,8個のSOTA PLMと7個のSOTA LLMより有意に優れていた。
論文 参考訳(メタデータ) (2024-02-12T08:14:03Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。