論文の概要: TabText: a Systematic Approach to Aggregate Knowledge Across Tabular
Data Structures
- arxiv url: http://arxiv.org/abs/2206.10381v1
- Date: Tue, 21 Jun 2022 13:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 23:27:41.541531
- Title: TabText: a Systematic Approach to Aggregate Knowledge Across Tabular
Data Structures
- Title(参考訳): TabText: 語彙データ構造間の知識集約のための体系的アプローチ
- Authors: Dimitris Bertsimas, Kimberly Villalobos Carballo, Yu Ma, Liangyuan Na,
L\'eonard Boussioux, Cynthia Zeng, Luis R. Soenksen, Ignacio Fuentes
- Abstract要約: 本研究では,非構造化データ形式を利用した表層データの効率的なエンコード手法であるTabTextを提案する。
2つの医療データセットと4つの予測タスクを用いて、TabTextによって抽出された特徴が従来の処理手法で抽出されたものより2-5%優れていたことを示す。
- 参考スコア(独自算出の注目度): 3.9203893397302294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Processing and analyzing tabular data in a productive and efficient way is
essential for building successful applications of machine learning in fields
such as healthcare. However, the lack of a unified framework for representing
and standardizing tabular information poses a significant challenge to
researchers and professionals alike. In this work, we present TabText, a
methodology that leverages the unstructured data format of language to encode
tabular data from different table structures and time periods efficiently and
accurately. We show using two healthcare datasets and four prediction tasks
that features extracted via TabText outperform those extracted with traditional
processing methods by 2-5%. Furthermore, we analyze the sensitivity of our
framework against different choices for sentence representations of missing
values, meta information and language descriptiveness, and provide insights
into winning strategies that improve performance.
- Abstract(参考訳): 表データを生産的かつ効率的な方法で処理および分析することは、医療などの分野における機械学習の成功に不可欠である。
しかし、表情報の表現と標準化のための統一フレームワークの欠如は、研究者や専門家にとっても大きな課題となっている。
本研究では,非構造化データ形式を利用したTabTextを用いて,表構造や時間周期の異なる表データのエンコードを行う手法を提案する。
2つの医療データセットと4つの予測タスクを使用して,従来の処理方法で抽出したデータよりも2~5%多く,タブテキストで抽出される。
さらに,欠落した値,メタ情報,言語記述性といった文表現の異なる選択に対するフレームワークの感度を分析し,性能向上のための勝利戦略に関する洞察を与える。
関連論文リスト
- PixT3: Pixel-based Table To Text generation [72.59315577559734]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。
本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文 参考訳(メタデータ) (2020-10-15T09:03:38Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。