論文の概要: TabulaX: Leveraging Large Language Models for Multi-Class Table Transformations
- arxiv url: http://arxiv.org/abs/2411.17110v1
- Date: Tue, 26 Nov 2024 05:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:30:48.111126
- Title: TabulaX: Leveraging Large Language Models for Multi-Class Table Transformations
- Title(参考訳): TabulaX: マルチクラステーブル変換のための大規模言語モデルを活用する
- Authors: Arash Dargahi Nobari, Davood Rafiei,
- Abstract要約: 本稿では,多クラス変換にLarge Language Models(LLM)を利用する新しいフレームワークであるTabulaXを紹介する。
本研究では,TabulaXが既存の最先端手法よりも精度が高く,より広範な変換クラスをサポートし,効率的に適用可能な解釈可能な変換を生成することを示す。
- 参考スコア(独自算出の注目度): 8.072353085704627
- License:
- Abstract: The integration of tabular data from diverse sources is often hindered by inconsistencies in formatting and representation, posing significant challenges for data analysts and personal digital assistants. Existing methods for automating tabular data transformations are limited in scope, often focusing on specific types of transformations or lacking interpretability. In this paper, we introduce TabulaX, a novel framework that leverages Large Language Models (LLMs) for multi-class tabular transformations. TabulaX first classifies input tables into four transformation classes (string-based, numerical, algorithmic, and general) and then applies tailored methods to generate human-interpretable transformation functions, such as numeric formulas or programming code. This approach enhances transparency and allows users to understand and modify the mappings. Through extensive experiments on real-world datasets from various domains, we demonstrate that TabulaX outperforms existing state-of-the-art approaches in terms of accuracy, supports a broader class of transformations, and generates interpretable transformations that can be efficiently applied.
- Abstract(参考訳): 多様なソースからの表データの統合は、フォーマットと表現の不整合によってしばしば妨げられ、データアナリストやパーソナルデジタルアシスタントにとって重大な課題を提起する。
表形式のデータ変換を自動化する既存の方法はスコープに限られており、しばしば特定のタイプの変換に焦点を当てたり、解釈可能性に欠ける。
本稿では,大規模言語モデル(LLM)を多クラス表型変換に適用する新しいフレームワークであるTabulaXを紹介する。
TabulaXは入力テーブルを4つの変換クラス(文字列ベース、数値、アルゴリズム、一般)に分類し、数値式やプログラミングコードなどの人間の解釈可能な変換関数を生成するための調整された方法を適用する。
このアプローチは透明性を高め、マッピングを理解して修正することを可能にする。
様々な領域からの実世界のデータセットに関する広範な実験を通じて、TabulaXは既存の最先端のアプローチよりも精度が高く、より広範な変換のクラスをサポートし、効率的に適用可能な解釈可能な変換を生成することを実証した。
関連論文リスト
- Scalable Representation Learning for Multimodal Tabular Transactions [14.18267117657451]
これらの課題に対して、革新的でスケーラブルなソリューションを提示します。
トランザクションとテキストのモダリティをインターリーブするパラメータ効率の良いデコーダを提案する。
我々は,大規模な合成決済トランザクションデータセット上でのソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-10T12:18:42Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Polynomial-based Self-Attention for Table Representation learning [23.651207486167518]
Transformersの重要なコンポーネントであるセルフアテンションは、過度にスムースな問題を引き起こす可能性がある。
そこで本研究では,行列ベースの自己アテンション層を元の自己アテンション層に代えて,新しい自己アテンション層を提案する。
提案する3つの表学習モデルを用いて実験を行った結果,この層が過度に平滑な問題を効果的に緩和することを示した。
論文 参考訳(メタデータ) (2023-12-12T21:49:26Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - Numeric Encoding Options with Automunge [0.0]
本稿では,ディープラーニングにおける数値ストリームの拡張符号化の潜在的なメリットについて論じる。
提案は、Automungeオープンソースpythonライブラリプラットフォームで利用可能な数値変換オプションに基づいている。
論文 参考訳(メタデータ) (2022-02-19T02:21:03Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z) - Propositionalization and Embeddings: Two Sides of the Same Coin [0.0]
本稿では,リレーショナル学習におけるデータ処理技術について概説する。
それは命題化とデータ変換のアプローチの埋め込みに焦点を当てている。
統一手法の2つの効率的な実装を提案する。
論文 参考訳(メタデータ) (2020-06-08T08:33:21Z) - On Compositions of Transformations in Contrastive Self-Supervised
Learning [66.15514035861048]
本稿では,コントラスト学習をより広範な変換集合に一般化する。
特定の変換に不変であり、他の変換に特有であることは、効果的なビデオ表現の学習に不可欠である。
論文 参考訳(メタデータ) (2020-03-09T17:56:49Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。