論文の概要: Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard
- arxiv url: http://arxiv.org/abs/2505.13421v1
- Date: Mon, 19 May 2025 17:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.791278
- Title: Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard
- Title(参考訳): さらなる進歩をめざす - タブラルデータリーダーの考えの連鎖
- Authors: Si-Yang Liu, Qile Zhou, Han-Jia Ye,
- Abstract要約: 機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。
本研究では,大規模言語モデルを活用したテキスト内アンサンブルフレームワークを提案する。
提案手法は,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
- 参考スコア(独自算出の注目度): 27.224577475861214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data, a fundamental data format in machine learning, is predominantly utilized in competitions and real-world applications. The performance of tabular models--such as gradient boosted decision trees and neural networks--can vary significantly across datasets due to differences in feature distributions and task characteristics. Achieving top performance on each dataset often requires specialized expert knowledge. To address this variability, practitioners often aggregate the predictions of multiple models. However, conventional aggregation strategies typically rely on static combination rules and lack instance-level adaptability. In this work, we propose an in-context ensemble framework for tabular prediction that leverages large language models (LLMs) to perform dynamic, instance-specific integration of external model predictions. Without access to raw tabular features or semantic information, our method constructs a context around each test instance using its nearest neighbors and the predictions from a pool of external models. Within this enriched context, we introduce Chain of Tabular Thoughts (CoT$^2$), a prompting strategy that guides LLMs through multi-step, interpretable reasoning, making still further progress toward expert-level decision-making. Experimental results show that our method outperforms well-tuned baselines and standard ensemble techniques across a wide range of tabular datasets.
- Abstract(参考訳): 機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。
勾配決定木やニューラルネットワークなどの表形式モデルの性能は、特徴分布とタスク特性の違いにより、データセット間で大きく異なる可能性がある。
各データセット上で最高のパフォーマンスを達成するには、専門的な専門家の知識が必要になることが多い。
この変動に対処するため、実践者は複数のモデルの予測を集約することが多い。
しかし、従来のアグリゲーション戦略は一般的に静的な組み合わせルールに依存しており、インスタンスレベルの適応性がない。
本研究では,大規模言語モデル(LLM)を活用して,外部モデル予測の動的,インスタンス固有の統合を行う,表層予測のためのコンテキスト内アンサンブルフレームワークを提案する。
そこで本手法では,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
このリッチな文脈の中では、多段階の解釈可能な推論を通じてLLMを誘導し、専門家レベルの意思決定に向けてさらに前進させるプロンプト戦略であるタブラ思想の連鎖(CoT$^2$)を導入する。
実験結果から,本手法は多岐にわたる表層データセットにおいて,高度に調整されたベースラインや標準アンサンブル手法よりも優れていた。
関連論文リスト
- Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation [0.0]
クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。
本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
論文 参考訳(メタデータ) (2024-10-01T00:37:16Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。