論文の概要: Talking Trees: Reasoning-Assisted Induction of Decision Trees for Tabular Data
- arxiv url: http://arxiv.org/abs/2509.21465v1
- Date: Thu, 25 Sep 2025 19:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.942685
- Title: Talking Trees: Reasoning-Assisted Induction of Decision Trees for Tabular Data
- Title(参考訳): 話し木:母音データのための推論支援による決定木の誘導
- Authors: George Yakushev, Alina Shutova, Ivan Rubachev, Renat Sergazinov, Artem Babenko,
- Abstract要約: タブラル基礎モデルは、低リソース問題でますます人気がある。
これらのモデルは、大量の合成データを事前学習することで、小さなトレーニングデータセットを構成する。
そこで本研究では,推論可能なLCMを用いて決定木を誘導する手法を提案する。
- 参考スコア(独自算出の注目度): 21.280488775409513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular foundation models are becoming increasingly popular for low-resource tabular problems. These models make up for small training datasets by pretraining on large volumes of synthetic data. The prior knowledge obtained via pretraining provides the exceptional performance, but the resulting model becomes a black box that is difficult to interpret and costly to inference. In this work, we explore an alternative strategy: using reasoning-capable LLMs to induce decision trees for small tabular datasets in agentic setup. We design a minimal set of tools for constructing, analyzing and manipulating decision trees. By using these tools, LLMs combine their prior knowledge with learning from data to create a lightweight decision tree that outperforms traditional CART on low-resource tabular problems. While a single decision tree does not outperform state-of-the-art black box models, it comes with a human-readable reasoning trace that can be checked for biases and data leaks. Furthermore, the reasoning-based LLM's creation process allows for additional human input: correcting biases or incorporating domain-specific intuition that is not captured in the data.
- Abstract(参考訳): タブラルファウンデーションモデルは、低リソースのタブラ問題でますます人気が高まっている。
これらのモデルは、大量の合成データを事前学習することで、小さなトレーニングデータセットを構成する。
事前学習によって得られた事前知識は例外的な性能を与えるが、結果として得られるモデルはブラックボックスとなり、解釈が難しく、推論にコストがかかる。
本研究では、推論可能なLCMを用いて、エージェント設定で小さな表のデータセットに対して決定木を誘導する方法を提案する。
決定木の構築、分析、操作を行うための最小限のツールを設計する。
これらのツールを使用することで、LLMは従来の知識とデータからの学習を組み合わせることで、低リソースの表計算問題において従来のCARTよりも優れた、軽量な決定木を生成する。
単一の決定木は最先端のブラックボックスモデルを上回るものではないが、人間の読みやすい推論トレースを備えており、バイアスやデータリークをチェックすることができる。
さらに、推論に基づくLLMの生成プロセスでは、バイアスの修正や、データにキャプチャされないドメイン固有の直観の取り入れなど、追加の人間の入力が可能になる。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - LLM Meeting Decision Trees on Tabular Data [14.527458439318725]
タブラルデータは、医療や金融など、さまざまな現実世界の分野において重要な役割を担っている。
近年,Large Language Models (LLMs) の成功により,LLMを表データ領域に拡張する研究が進められている。
論文 参考訳(メタデータ) (2025-05-23T13:57:53Z) - Learning Decision Trees as Amortized Structure Inference [59.65621207449269]
本稿では,予測決定木アンサンブルを学習するためのハイブリッドアモータイズされた構造推論手法を提案する。
提案手法であるDT-GFNは,標準分類ベンチマークにおける最先端決定木やディープラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T07:05:07Z) - Zero-Shot Decision Tree Construction via Large Language Models [2.005837558796176]
本稿では,大言語モデル(LLM)を用いた決定木構築アルゴリズムについて,分類・回帰木(CART)の原理に基づくゼロショット方式で紹介する。
提案手法では, 属性の離散化, 確率計算, Giniインデックス計算など, 決定木構築に必要な演算を行う。
論文 参考訳(メタデータ) (2025-01-27T17:48:48Z) - "Oh LLM, I'm Asking Thee, Please Give Me a Decision Tree": Zero-Shot Decision Tree Induction and Embedding with Large Language Models [1.742301293487176]
大規模言語モデル(LLM)は、データ制限時に予測モデリングに事前知識を活用する強力な手段を提供する。
本研究では,LLMが圧縮された世界知識を用いて,本質的に解釈可能な機械学習モデルを生成する方法を示す。
論文 参考訳(メタデータ) (2024-09-27T09:53:48Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。