Fugu-MT 論文翻訳(概要): TabText: A Flexible and Contextual Approach to Tabular Data Representation

論文の概要: TabText: A Flexible and Contextual Approach to Tabular Data Representation

arxiv url: http://arxiv.org/abs/2206.10381v4
Date: Fri, 21 Jul 2023 20:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-26 01:10:37.042876
Title: TabText: A Flexible and Contextual Approach to Tabular Data Representation
Title（参考訳）: TabText: タブラルデータ表現に対するフレキシブルでコンテキスト的なアプローチ
Authors: Kimberly Villalobos Carballo, Liangyuan Na, Yu Ma, L\'eonard Boussioux, Cynthia Zeng, Luis R. Soenksen, Dimitris Bertsimas
Abstract要約: TabTextは、表のデータ構造からコンテキスト情報を抽出する処理フレームワークである。 TabTextは、標準機械学習モデルの平均AUC性能と最悪のAUC性能を最大6%改善することを示す。
参考スコア（独自算出の注目度）: 4.116980088382032
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tabular data is essential for applying machine learning tasks across various industries. However, traditional data processing methods do not fully utilize all the information available in the tables, ignoring important contextual information such as column header descriptions. In addition, pre-processing data into a tabular format can remain a labor-intensive bottleneck in model development. This work introduces TabText, a processing and feature extraction framework that extracts contextual information from tabular data structures. TabText addresses processing difficulties by converting the content into language and utilizing pre-trained large language models (LLMs). We evaluate our framework on nine healthcare prediction tasks ranging from patient discharge, ICU admission, and mortality. We show that 1) applying our TabText framework enables the generation of high-performing and simple machine learning baseline models with minimal data pre-processing, and 2) augmenting pre-processed tabular data with TabText representations improves the average and worst-case AUC performance of standard machine learning models by as much as 6%.
Abstract（参考訳）: タブラルデータは、機械学習タスクをさまざまな産業に適用するために欠かせない。しかし、従来のデータ処理手法では、テーブルで利用可能な全ての情報を十分に活用せず、カラムヘッダ記述のような重要なコンテキスト情報を無視している。さらに、前処理データを表形式にすることは、モデル開発における労働集約的なボトルネックであり続ける可能性がある。この作業では,表データ構造からコンテキスト情報を抽出する処理および特徴抽出フレームワークであるTabTextを導入する。 tabtextは、コンテンツを言語に変換し、事前訓練された大型言語モデル(llm)を活用することで、処理の困難に対処する。患者の退院, ICU入院, 死亡に至る9つの医療予測課題の枠組みについて検討した。私たちはそれを示します 1) TabTextフレームワークを適用することで、最小限のデータ前処理を伴う高性能でシンプルな機械学習ベースラインモデルの生成が可能になります。 2) TabText表現による事前処理タブラデータの増大により,標準機械学習モデルの平均および最悪のAUC性能は最大6%向上する。

関連論文リスト

PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文参考訳（メタデータ） (2024-10-17T13:05:44Z)
UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。 UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文参考訳（メタデータ） (2024-09-20T01:26:32Z)
LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。 LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。 LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文参考訳（メタデータ） (2024-06-25T16:03:50Z)
PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。 ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文参考訳（メタデータ） (2023-11-16T11:32:47Z)
Towards Table-to-Text Generation with Pretrained Language Model: A Table Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文参考訳（メタデータ） (2023-01-05T14:03:26Z)
PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文参考訳（メタデータ） (2022-09-15T08:58:42Z)
SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文参考訳（メタデータ） (2021-10-08T20:11:09Z)
TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文参考訳（メタデータ） (2021-05-06T11:15:16Z)
Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文参考訳（メタデータ） (2020-10-15T09:03:38Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)
TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。 TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文参考訳（メタデータ） (2020-05-17T17:26:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。