論文の概要: Learning Better Representation for Tables by Self-Supervised Tasks
- arxiv url: http://arxiv.org/abs/2010.07606v3
- Date: Tue, 30 Mar 2021 06:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:52:01.239789
- Title: Learning Better Representation for Tables by Self-Supervised Tasks
- Title(参考訳): 自己教師付きタスクによる表表現の改善
- Authors: Liang Li, Can Ma, Yinliang Yue, Linjun Shou and Dayong Hu
- Abstract要約: 本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。
本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
- 参考スコア(独自算出の注目度): 23.69766883380125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table-to-text generation aims at automatically generating natural text to
help people to conveniently obtain the important information in tables.
Although neural models for table-to-text have achieved remarkable progress,
some problems still overlooked. The first is that the values recorded in many
tables are mostly numbers in practice. The existing approaches do not do
special treatment for these, and still regard these as words in natural
language text. Secondly, the target texts in training dataset may contain
redundant information or facts do not exist in the input tables. These may give
wrong supervision signals to some methods based on content selection and
planning and auxiliary supervision. To solve these problems, we propose two
self-supervised tasks, Number Ordering and Significance Ordering, to help to
learn better table representation. The former works on the column dimension to
help to incorporate the size property of numbers into table representation. The
latter acts on row dimension and help to learn a significance-aware table
representation. We test our methods on the widely used dataset ROTOWIRE which
consists of NBA game statistic and related news. The experimental results
demonstrate that the model trained together with these two self-supervised
tasks can generate text that contains more salient and well-organized facts,
even without modeling context selection and planning. And we achieve the
state-of-the-art performance on automatic metrics.
- Abstract(参考訳): テーブルからテキストへの生成は、自然テキストを自動的に生成することで、テーブル内の重要な情報を便利に取得することを目的としている。
表からテキストへのニューラルモデルは目覚ましい進歩を遂げているが、いくつかの問題がまだ見過ごされている。
第一に、多くの表に記録されている値は、実際は数値である。
既存のアプローチではこれらを特別な扱いはせず、自然言語のテキストではこれらを言葉とみなしている。
第二に、トレーニングデータセットのターゲットテキストには、入力テーブルに冗長な情報や事実が存在しない場合がある。
これらは、コンテンツの選択と計画と補助監督に基づくいくつかの方法に誤った監督信号を与える可能性がある。
これらの問題を解決するために,数順序と有意順序という2つの自己教師型タスクを提案し,テーブル表現の学習を支援する。
前者は列次元に取り組み、数値のサイズ特性を表表現に組み込むのに役立つ。
後者は行の次元に作用し、意味を認識するテーブル表現を学ぶのに役立つ。
nba game statistic と関連するニュースからなる,広く使用されているデータセット rotowire 上で本手法をテストした。
実験結果から,これら2つの自己教師型タスクで訓練したモデルは,文脈選択や計画のモデル化を伴わずとも,より健全で適切に構成された事実を含むテキストを生成することができた。
そして、自動メトリクスで最先端のパフォーマンスを達成する。
関連論文リスト
- TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文 参考訳(メタデータ) (2023-12-18T09:18:43Z) - PixT3: Pixel-based Table-To-Text Generation [66.96636025277536]
本稿では,線形化と入力サイズ制限の課題を克服するマルチモーダルテーブル・トゥ・テキスト・モデルPixT3を提案する。
ToTToとLogic2Textベンチマークの実験では、PixT3はテキストのみで動作するジェネレータよりも競争力があり、優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-16T11:32:47Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Bridge the Gap between Language models and Tabular Understanding [99.88470271644894]
自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
有望な発見にもかかわらず、事前トレーニングと微調整フェーズの間には入力ギャップがある。
UTPは,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法である。
論文 参考訳(メタデータ) (2023-02-16T15:16:55Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - TabText: A Flexible and Contextual Approach to Tabular Data
Representation [4.116980088382032]
TabTextは、表のデータ構造からコンテキスト情報を抽出する処理フレームワークである。
TabTextは、標準機械学習モデルの平均AUC性能と最悪のAUC性能を最大6%改善することを示す。
論文 参考訳(メタデータ) (2022-06-21T13:28:57Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。