論文の概要: LLM Meeting Decision Trees on Tabular Data
- arxiv url: http://arxiv.org/abs/2505.17918v1
- Date: Fri, 23 May 2025 13:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.129036
- Title: LLM Meeting Decision Trees on Tabular Data
- Title(参考訳): タブラルデータを用いたLLM会議決定木
- Authors: Hangting Ye, Jinmeng Li, He Zhao, Dandan Guo, Yi Chang,
- Abstract要約: タブラルデータは、医療や金融など、さまざまな現実世界の分野において重要な役割を担っている。
近年,Large Language Models (LLMs) の成功により,LLMを表データ領域に拡張する研究が進められている。
- 参考スコア(独自算出の注目度): 14.527458439318725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data have been playing a vital role in diverse real-world fields, including healthcare, finance, etc. With the recent success of Large Language Models (LLMs), early explorations of extending LLMs to the domain of tabular data have been developed. Most of these LLM-based methods typically first serialize tabular data into natural language descriptions, and then tune LLMs or directly infer on these serialized data. However, these methods suffer from two key inherent issues: (i) data perspective: existing data serialization methods lack universal applicability for structured tabular data, and may pose privacy risks through direct textual exposure, and (ii) model perspective: LLM fine-tuning methods struggle with tabular data, and in-context learning scalability is bottle-necked by input length constraints (suitable for few-shot learning). This work explores a novel direction of integrating LLMs into tabular data throughough logical decision tree rules as intermediaries, proposes a decision tree enhancer with LLM-derived rule for tabular prediction, DeLTa. The proposed DeLTa avoids tabular data serialization, and can be applied to full data learning setting without LLM fine-tuning. Specifically, we leverage the reasoning ability of LLMs to redesign an improved rule given a set of decision tree rules. Furthermore, we provide a calibration method for original decision trees via new generated rule by LLM, which approximates the error correction vector to steer the original decision tree predictions in the direction of ``errors'' reducing. Finally, extensive experiments on diverse tabular benchmarks show that our method achieves state-of-the-art performance.
- Abstract(参考訳): タブラルデータは、医療や金融など、さまざまな現実世界の分野において重要な役割を担っている。
近年,Large Language Models (LLMs) の成功により,LLMを表データ領域に拡張する研究が進められている。
これらのLCMベースの手法の多くは、通常、表形式のデータを自然言語記述にシリアライズし、LSMをチューニングするか、直列化されたデータを直接推測する。
しかし、これらの手法は2つの重要な問題に悩まされている。
(i)データ視点:既存のデータシリアライゼーション手法は構造化表データに普遍的な適用性を持たず、直接のテキスト露出によるプライバシーリスクを生じさせる可能性がある。
(II)モデル視点: LLMファインチューニング手法は表型データに苦しむが、文脈内学習のスケーラビリティは入力長制約(数ショット学習に適している)によってボトルネックされる。
本研究は, LLM を表型データに統合する新たな方向を探索し, 論理木規則を中間として, 表型予測のための LLM 由来の規則である DeLTa を用いた決定木拡張手法を提案する。
提案したDeLTaは表形式のデータシリアライゼーションを回避し,LLMの微調整を行なわずに完全なデータ学習環境に適用できる。
具体的には、LLMの推論能力を活用して、一連の決定木ルールを考慮し、改良されたルールを再設計する。
さらに, 誤り訂正ベクトルを近似し, 「エラー」削減の方向に原決定木予測を操る, LLM による新たな生成規則による原決定木校正手法を提案する。
最後に,多種多様な表型ベンチマーク実験により,本手法が最先端の性能を実現することを示す。
関連論文リスト
- Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models [15.603556124006479]
拡張性のあるTabICLのための検索拡張言語モデルを提案する。
提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。
これにより、LLMはより大きなデータセットを効果的に活用することができ、69の広く認識されているデータセット間での大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-05T13:16:41Z) - Through the Thicket: A Study of Number-Oriented LLMs derived from Random Forest Models [0.0]
大規模言語モデル (LLM) はテキスト処理において例外的な性能を示した。
本稿では,ランダムフォレスト(RF)アンサンブルからの知識伝達を用いたLLMの学習手法を提案する。
我々は、細調整のためのアウトプットを生成し、その決定を分類し、説明するモデルの能力を高めます。
論文 参考訳(メタデータ) (2024-06-07T13:31:51Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Incorporating LLM Priors into Tabular Learners [6.835834518970967]
分類変数のランク付けにLarge Language Models(LLM)を利用する2つの戦略を導入する。
我々は、順序を基数にマッピングするために非線形単調関数を用いるモノトニックLRを導入する、ロジスティック回帰に焦点を当てる。
論文 参考訳(メタデータ) (2023-11-20T09:27:09Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。