論文の概要: Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning
- arxiv url: http://arxiv.org/abs/2406.08527v2
- Date: Mon, 18 Nov 2024 05:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:38.206193
- Title: Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning
- Title(参考訳): 決定木推論を用いたLLMによる語彙データの最適特徴生成
- Authors: Jaehyun Nam, Kyuyoung Kim, Seunghyuk Oh, Jihoon Tack, Jaehyung Kim, Jinwoo Shin,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
- 参考スコア(独自算出の注目度): 53.241569810013836
- License:
- Abstract: In tabular prediction tasks, tree-based models combined with automated feature engineering methods often outperform deep learning approaches that rely on learned representations. While these feature engineering techniques are effective, they typically depend on a pre-defined search space and primarily use validation scores for feature selection, thereby missing valuable insights from previous experiments. To address these limitations, we propose a novel tabular learning framework that utilizes large language models (LLMs), termed Optimizing Column feature generator with decision Tree reasoning (OCTree). Our key idea is to leverage the reasoning capabilities of LLMs to identify effective feature generation rules without manually specifying the search space and provide language-based reasoning information highlighting past experiments as feedback for iterative rule improvements. We use decision trees to convey this reasoning information, as they can be easily represented in natural language, effectively providing knowledge from prior experiments (i.e., the impact of the generated features on performance) to the LLMs. Our empirical results demonstrate that OCTree consistently enhances the performance of various prediction models across diverse benchmarks, outperforming competing automated feature engineering methods. Code is available at https://github.com/jaehyun513/OCTree.
- Abstract(参考訳): 表形式での予測タスクでは、木ベースのモデルと自動特徴工学の手法が組み合わさって、学習した表現に依存するディープラーニングアプローチよりも優れていることが多い。
これらの特徴工学技術は有効であるが、通常、事前に定義された検索空間に依存し、主に特徴の選択に検証スコアを使用し、その結果、以前の実験から得られた貴重な洞察を欠いている。
これらの制約に対処するため,大規模言語モデル(LLM)を利用した新しい表型学習フレームワークを提案し,決定木推論(OCTree)を用いた最適化カラム特徴生成手法を提案する。
我々のキーとなる考え方は、LLMの推論機能を活用して、手動で検索空間を指定せずに効率的な特徴生成ルールを識別し、過去の実験を強調した言語ベースの推論情報を反復的ルール改善のためのフィードバックとして提供することである。
我々は、この推論情報を伝えるために決定木を使用し、自然言語で容易に表現でき、以前の実験(つまり、生成された特徴が性能に与える影響)からLLMに効果的に知識を提供する。
実験の結果、OCTreeは様々なベンチマークで様々な予測モデルの性能を一貫して向上させ、競合する自動機能工学手法よりも優れています。
コードはhttps://github.com/jaehyun513/OCTree.comから入手できる。
関連論文リスト
- Data-Centric Human Preference Optimization with Rationales [23.243583332894737]
人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。
この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。
我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:27:52Z) - Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring [16.38771834692938]
より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
論文 参考訳(メタデータ) (2024-06-28T14:33:05Z) - Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees [37.297431187924765]
決定木から抽出した選好データに基づく推論軌道最適化フレームワークを提案する。
提案実験により, TP-LLaMAは, 推定木における誤差から洞察を得ることにより, ベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-06-11T10:00:18Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Decision Tree Learning with Spatial Modal Logics [0.0]
特に時間に依存したデータに対して、より仮説的なシンボリック学習法が出現し始めている。
本稿では,空間決定木学習の理論を提案し,空間決定木学習アルゴリズムのプロトタイプ実装について述べる。
空間決定木の予測能力と古典命題決定木の予測能力を複数バージョンで比較し,多クラス画像分類問題を提案する。
論文 参考訳(メタデータ) (2021-09-17T02:35:18Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。