論文の概要: Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning
- arxiv url: http://arxiv.org/abs/2406.08527v1
- Date: Wed, 12 Jun 2024 08:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 22:37:00.722369
- Title: Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning
- Title(参考訳): 決定木推論を用いたLLMによる語彙データの最適特徴生成
- Authors: Jaehyun Nam, Kyuyoung Kim, Seunghyuk Oh, Jihoon Tack, Jaehyung Kim, Jinwoo Shin,
- Abstract要約: 大規模言語モデル(LLM)と決定木推論(OCTree)に基づく新しいフレームワークを提案する。
私たちのキーとなるアイデアは、LLMの推論機能を活用して、手動で検索スペースを指定せずに優れた特徴生成ルールを見つけることです。
実験の結果、この単純なフレームワークは様々な予測モデルの性能を一貫して向上させることが示された。
- 参考スコア(独自算出の注目度): 53.241569810013836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning effective representations from raw data is crucial for the success of deep learning methods. However, in the tabular domain, practitioners often prefer augmenting raw column features over using learned representations, as conventional tree-based algorithms frequently outperform competing approaches. As a result, feature engineering methods that automatically generate candidate features have been widely used. While these approaches are often effective, there remains ambiguity in defining the space over which to search for candidate features. Moreover, they often rely solely on validation scores to select good features, neglecting valuable feedback from past experiments that could inform the planning of future experiments. To address the shortcomings, we propose a new tabular learning framework based on large language models (LLMs), coined Optimizing Column feature generator with decision Tree reasoning (OCTree). Our key idea is to leverage LLMs' reasoning capabilities to find good feature generation rules without manually specifying the search space and provide language-based reasoning information highlighting past experiments as feedback for iterative rule improvements. Here, we choose a decision tree as reasoning as it can be interpreted in natural language, effectively conveying knowledge of past experiments (i.e., the prediction models trained with the generated features) to the LLM. Our empirical results demonstrate that this simple framework consistently enhances the performance of various prediction models across diverse tabular benchmarks, outperforming competing automatic feature engineering methods.
- Abstract(参考訳): 生データから効果的な表現を学習することは、深層学習の成功に不可欠である。
しかし、表形式の領域では、従来の木に基づくアルゴリズムが競合するアプローチよりも優れているため、実践者は学習した表現を使うよりも生のコラムの特徴を増大させることを好むことが多い。
その結果,候補機能を自動的に生成する機能工学手法が広く用いられている。
これらのアプローチはしばしば有効であるが、候補となる特徴を探索する空間を定義することはあいまいである。
さらに、彼らはしばしば、優れた機能を選択するために検証スコアのみを頼りにしており、将来の実験計画に影響を及ぼすような過去の実験からの貴重なフィードバックを無視しています。
そこで我々は,大規模言語モデル (LLM) に基づく新しい表型学習フレームワークを提案し,決定木推論 (OCTree) を用いた最適化カラム特徴生成器を開発した。
我々のキーとなる考え方は、LLMの推論機能を活用して、手動で検索空間を指定せずに優れた特徴生成ルールを見つけ、過去の実験を強調した言語ベースの推論情報を反復的ルール改善のためのフィードバックとして提供することである。
ここでは、決定木を自然言語で解釈できるような推論として選択し、過去の実験(つまり、生成された特徴で訓練された予測モデル)の知識をLLMに効果的に伝達する。
実験の結果、この単純なフレームワークは、様々な表型ベンチマークで様々な予測モデルの性能を一貫して向上させ、競合する自動機能工学手法よりも優れています。
関連論文リスト
- Data-Centric Human Preference Optimization with Rationales [23.243583332894737]
人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。
この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。
我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:27:52Z) - Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring [16.38771834692938]
より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
論文 参考訳(メタデータ) (2024-06-28T14:33:05Z) - Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees [37.297431187924765]
決定木から抽出した選好データに基づく推論軌道最適化フレームワークを提案する。
提案実験により, TP-LLaMAは, 推定木における誤差から洞察を得ることにより, ベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-06-11T10:00:18Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Decision Tree Learning with Spatial Modal Logics [0.0]
特に時間に依存したデータに対して、より仮説的なシンボリック学習法が出現し始めている。
本稿では,空間決定木学習の理論を提案し,空間決定木学習アルゴリズムのプロトタイプ実装について述べる。
空間決定木の予測能力と古典命題決定木の予測能力を複数バージョンで比較し,多クラス画像分類問題を提案する。
論文 参考訳(メタデータ) (2021-09-17T02:35:18Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。