論文の概要: Embedding World Knowledge into Tabular Models: Towards Best Practices for Embedding Pipeline Design
- arxiv url: http://arxiv.org/abs/2603.17737v1
- Date: Wed, 18 Mar 2026 14:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.735951
- Title: Embedding World Knowledge into Tabular Models: Towards Best Practices for Embedding Pipeline Design
- Title(参考訳): 世界の知識をタブラルモデルに組み込む - パイプライン設計のベストプラクティスを目指して
- Authors: Oksana Kolomenko, Ricardo Knauer, Erik Rodner,
- Abstract要約: 256のパイプライン構成をベンチマークし、8つの前処理戦略、16の埋め込みモデル、2の下流モデルをカバーする。
この結果から, LLMの事前知識を取り入れた場合, 予測性能が向上するかどうか, パイプライン設計に強く依存していることが示唆された。
より大きな埋め込みモデルはより良い結果をもたらす傾向があり、公開のリーダーボードランキングとモデルの人気はパフォーマンス指標が貧弱である。
- 参考スコア(独自算出の注目度): 1.338174941551702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embeddings are a powerful way to enrich data-driven machine learning models with the world knowledge of large language models (LLMs). Yet, there is limited evidence on how to design effective LLM-based embedding pipelines for tabular prediction. In this work, we systematically benchmark 256 pipeline configurations, covering 8 preprocessing strategies, 16 embedding models, and 2 downstream models. Our results show that it strongly depends on the specific pipeline design whether incorporating the prior knowledge of LLMs improves the predictive performance. In general, concatenating embeddings tends to outperform replacing the original columns with embeddings. Larger embedding models tend to yield better results, while public leaderboard rankings and model popularity are poor performance indicators. Finally, gradient boosting decision trees tend to be strong downstream models. Our findings provide researchers and practitioners with guidance for building more effective embedding pipelines for tabular prediction tasks.
- Abstract(参考訳): 埋め込みは、大規模言語モデル(LLM)の世界的知識によって、データ駆動機械学習モデルを強化する強力な方法である。
しかし、表形式の予測に有効なLLMベースの埋め込みパイプラインを設計する方法については、限られた証拠がある。
本研究では、256のパイプライン構成を体系的にベンチマークし、8つの前処理戦略、16の埋め込みモデル、2つの下流モデルをカバーする。
この結果から, LLMの事前知識を取り入れた場合, 予測性能が向上するかどうか, パイプライン設計に強く依存していることが示唆された。
一般的に、結合埋め込みは、元の列を埋め込みに置き換えるよりも優れています。
より大きな埋め込みモデルはより良い結果をもたらす傾向があり、公開のリーダーボードランキングとモデルの人気はパフォーマンス指標が貧弱である。
最後に、勾配を増す決定木は、下流の強いモデルである傾向がある。
本研究は, より効率的な埋込みパイプライン構築のための指導を, 研究者や実践者に提供するものである。
関連論文リスト
- TabICLv2: A better, faster, scalable, and open tabular foundation model [18.594859017648346]
3つの柱上に構築された回帰と分類のための新しい最先端基盤モデルであるTabICLv2を紹介する。
Tabiclv2は、50GBのGPUメモリ下での百万規模のデータセットを効果的に一般化し、RealTabPFN-2.5よりも著しく高速である。
論文 参考訳(メタデータ) (2026-02-11T18:51:02Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Shadow-FT: Tuning Instruct Model via Training on Paired Base Model [67.20706292627106]
大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。
本稿では,対応するベースモデルを活用してインストラクタモデルをチューニングするための新しいシャドウ-FTフレームワークを提案する。
提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-05-19T05:16:21Z) - Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Online learning techniques for prediction of temporal tabular datasets
with regime changes [0.0]
時間パネルデータセットの予測をランキングするモジュール型機械学習パイプラインを提案する。
パイプラインのモジュラリティにより、GBDT(Gradient Boosting Decision Tree)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。
モデルの再トレーニングを必要としないオンライン学習技術は、予測後の結果を高めるために使用することができる。
論文 参考訳(メタデータ) (2022-12-30T17:19:00Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。
条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-13T16:22:14Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。