論文の概要: Table Transformers for Imputing Textual Attributes
- arxiv url: http://arxiv.org/abs/2408.02128v2
- Date: Fri, 1 Nov 2024 00:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:55:51.021188
- Title: Table Transformers for Imputing Textual Attributes
- Title(参考訳): テキスト属性を計算するためのテーブル変換器
- Authors: Ting-Ruen Wei, Yuan Wang, Yoshitaka Inoue, Hsin-Tai Wu, Yi Fang,
- Abstract要約: 本稿では,TTITA(Imputing Textual Attributes)のためのテーブルトランスフォーマー(Table Transformer)という新しいエンドツーエンドアプローチを提案する。
提案手法は,リカレントニューラルネットワークやLlama2などのベースラインモデルよりも優れた性能を示す。
マルチタスク学習を組み込んで、不均一な列を同時にインプットし、テキストインプットの性能を高める。
- 参考スコア(独自算出の注目度): 15.823533688884105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data in tabular dataset is a common issue as the performance of downstream tasks usually depends on the completeness of the training dataset. Previous missing data imputation methods focus on numeric and categorical columns, but we propose a novel end-to-end approach called Table Transformers for Imputing Textual Attributes (TTITA) based on the transformer to impute unstructured textual columns using other columns in the table. We conduct extensive experiments on three datasets, and our approach shows competitive performance outperforming baseline models such as recurrent neural networks and Llama2. The performance improvement is more significant when the target sequence has a longer length. Additionally, we incorporate multi-task learning to simultaneously impute for heterogeneous columns, boosting the performance for text imputation. We also qualitatively compare with ChatGPT for realistic applications.
- Abstract(参考訳): ダウンストリームタスクのパフォーマンスは通常、トレーニングデータセットの完全性に依存するため、表形式のデータセットでのデータの欠落は一般的な問題である。
従来のデータ計算手法では、数値列と分類列に重点を置いていたが、変換器をベースとしたテーブル変換器(TTITA)と呼ばれる新しいエンドツーエンドの手法を提案し、テーブル内の他の列を用いて非構造化テキスト列をインプットする。
提案手法は,3つのデータセットに対して広範な実験を行い,リカレントニューラルネットワークやLlama2などのベースラインモデルよりも優れた性能を示す。
ターゲットシーケンスの長さが長い場合には、パフォーマンスの改善がより重要である。
さらに、マルチタスク学習を組み込んで、不均一な列を同時にインプットし、テキストインプットの性能を高める。
また、現実的なアプリケーションではChatGPTと定性的に比較する。
関連論文リスト
- A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Text Role Classification in Scientific Charts Using Multimodal
Transformers [4.605099852396135]
テキストロール分類は、科学チャート内のテキスト要素の意味的な役割を分類することを含む。
本稿では,事前訓練された2つのマルチモーダル文書レイアウト解析モデルであるLayoutLMv3とUDOPをグラフデータセット上に微調整することを提案する。
モデルの性能向上にデータ拡張とバランシングが有効かを検討する。
論文 参考訳(メタデータ) (2024-02-08T13:21:44Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Learning Enhanced Representations for Tabular Data via Neighborhood
Propagation [24.485479610138498]
データインスタンスのクロスローパターンとクロスカラムパターンをモデル化するハイパーグラフを構築した。
次に、ターゲットデータインスタンス表現を強化するためにメッセージの伝搬を行います。
2つの重要なデータ予測タスクの実験は、提案したPETモデルの優越性を検証する。
論文 参考訳(メタデータ) (2022-06-14T04:24:52Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Interpretable Feature Construction for Time Series Extrinsic Regression [0.028675177318965035]
一部のアプリケーション領域では、対象変数が数値であり、その問題は時系列外部回帰(TSER)として知られている。
TSERの文脈における頑健で解釈可能な特徴構築と選択のためのベイズ法の拡張を提案する。
私たちのアプローチは、TSERに取り組むためのリレーショナルな方法を利用します:(i)、リレーショナルデータスキームに格納されている時系列の多様で単純な表現を構築し、(ii)二次テーブルからデータを「フラット化」するために解釈可能な機能を構築するためにプロポジション化技術を適用します。
論文 参考訳(メタデータ) (2021-03-15T08:12:19Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。