論文の概要: FeRG-LLM : Feature Engineering by Reason Generation Large Language Models
- arxiv url: http://arxiv.org/abs/2503.23371v1
- Date: Sun, 30 Mar 2025 09:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.091087
- Title: FeRG-LLM : Feature Engineering by Reason Generation Large Language Models
- Title(参考訳): FeRG-LLM : 推論生成大言語モデルによる特徴工学
- Authors: Jeonghyun Ko, Gyeongyun Park, Donghoon Lee, Kyunam Lee,
- Abstract要約: FeRG-LLMは機能エンジニアリングを自動実行するように設計された大きな言語モデルである。
我々は、言語モデルで機械学習タスクを解析できる2段階の会話対話を構築した。
実験の結果、FeRG-LLMはほとんどのデータセットでLlama 3.1 70Bと同等かそれ以上に動作することが示された。
- 参考スコア(独自算出の注目度): 2.6740666148510077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the key tasks in machine learning for tabular data is feature engineering. Although it is vital for improving the performance of models, it demands considerable human expertise and deep domain knowledge, making it labor-intensive endeavor. To address this issue, we propose a novel framework, \textbf{FeRG-LLM} (\textbf{Fe}ature engineering by \textbf{R}eason \textbf{G}eneration \textbf{L}arge \textbf{L}anguage \textbf{M}odels), a large language model designed to automatically perform feature engineering at an 8-billion-parameter scale. We have constructed two-stage conversational dialogues that enable language models to analyze machine learning tasks and discovering new features, exhibiting their Chain-of-Thought (CoT) capabilities. We use these dialogues to fine-tune Llama 3.1 8B model and integrate Direct Preference Optimization (DPO) to receive feedback improving quality of new features and the model's performance. Our experiments show that FeRG-LLM performs comparably to or better than Llama 3.1 70B on most datasets, while using fewer resources and achieving reduced inference time. It outperforms other studies in classification tasks and performs well in regression tasks. Moreover, since it does not rely on cloud-hosted LLMs like GPT-4 with extra API costs when generating features, it can be deployed locally, addressing security concerns.
- Abstract(参考訳): グラフデータのための機械学習における重要なタスクの1つは、機能エンジニアリングである。
モデルの性能向上には不可欠だが、かなりの人間の専門知識と深いドメイン知識を必要とするため、労働集約的な努力が求められる。
この問題に対処するため,新しいフレームワークである \textbf{FeRG-LLM} (\textbf{Fe}ature engineering by \textbf{R}eason \textbf{G}eneration \textbf{L}arge \textbf{L}anguage \textbf{M}odels)を提案する。
言語モデルによる機械学習タスクの解析と新機能の発見を可能にし,CoT(Chain-of-Thought)機能を示す2段階の会話対話を構築した。
我々はこれらの対話を用いてLlama 3.1 8Bモデルを微調整し、DPO(Direct Preference Optimization)を統合し、新機能の品質とモデルの性能を改善するフィードバックを受け取る。
実験の結果,FeRG-LLMはほとんどのデータセットにおいてLlama 3.1 70Bと同等以上の性能を示し,リソースの削減と推論時間の短縮を実現している。
分類タスクにおける他の研究よりも優れ、回帰タスクではよく機能する。
さらに、GPT-4のようなクラウドでホストされるLLMに依存しないので、機能の生成時に追加のAPIコストがかかるため、セキュリティ上の懸念に対処して、ローカルにデプロイすることができる。
関連論文リスト
- Small Models, Big Tasks: An Exploratory Empirical Study on Small Language Models for Function Calling [6.102559098873098]
関数呼び出しは、情報検索、ソフトウェア工学、自動化といった分野に広く応用される複雑なタスクである。
LLM(Large Language Models)はこのプロセスを自動化できるが、計算コストが高く、リソース制約のある環境では実用的ではない。
小型言語モデル(SLM)は効率よく動作し、応答時間を短縮し、計算要求を低減できる。
論文 参考訳(メタデータ) (2025-04-27T15:26:51Z) - PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-15T15:11:17Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - G-SPEED: General SParse Efficient Editing MoDel [25.48360227520061]
underlinetextbfGeneral underlinetextbfSParse underlinetextbfEfficient underlinetextbfEditing MounderlinetextbfDel(textbfG-SPEED)
論文 参考訳(メタデータ) (2023-10-16T15:01:18Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Towards an On-device Agent for Text Rewriting [22.05671256490942]
モバイル中心のテキスト書き換えモデルを構築するための新しい命令チューニング手法を提案する。
我々の戦略は、人間のラベルを付けずに高品質なトレーニングデータを生成することができる。
我々は、自然言語によるメッセージのテキスト書き直しに焦点を当てたベンチマークであるMessageRewriteEvalを紹介した。
論文 参考訳(メタデータ) (2023-08-22T22:18:38Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。