論文の概要: Robust (Controlled) Table-to-Text Generation with Structure-Aware
Equivariance Learning
- arxiv url: http://arxiv.org/abs/2205.03972v1
- Date: Sun, 8 May 2022 23:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 13:28:55.643497
- Title: Robust (Controlled) Table-to-Text Generation with Structure-Aware
Equivariance Learning
- Title(参考訳): 構造認識等分散学習を用いたロバスト(制御)表-テキスト生成
- Authors: Fei Wang, Zhewei Xu, Pedro Szekely and Muhao Chen
- Abstract要約: 制御されたテーブル・トゥ・テキスト生成は、テーブルのハイライトされた部分の自然言語記述を生成する。
構造認識型自己認識機構で表を符号化する等分散学習フレームワークを提案する。
我々の技術は、既存のテーブル・ツー・テキスト生成モデルに自由にプラグインでき、T5ベースのモデルを改善し、ToTToとHiTabのパフォーマンスを改善しました。
- 参考スコア(独自算出の注目度): 24.233552674892906
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Controlled table-to-text generation seeks to generate natural language
descriptions for highlighted subparts of a table. Previous SOTA systems still
employ a sequence-to-sequence generation method, which merely captures the
table as a linear structure and is brittle when table layouts change. We seek
to go beyond this paradigm by (1) effectively expressing the relations of
content pieces in the table, and (2) making our model robust to
content-invariant structural transformations. Accordingly, we propose an
equivariance learning framework, which encodes tables with a structure-aware
self-attention mechanism. This prunes the full self-attention structure into an
order-invariant graph attention that captures the connected graph structure of
cells belonging to the same row or column, and it differentiates between
relevant cells and irrelevant cells from the structural perspective. Our
framework also modifies the positional encoding mechanism to preserve the
relative position of tokens in the same cell but enforce position invariance
among different cells. Our technology is free to be plugged into existing
table-to-text generation models, and has improved T5-based models to offer
better performance on ToTTo and HiTab. Moreover, on a harder version of ToTTo,
we preserve promising performance, while previous SOTA systems, even with
transformation-based data augmentation, have seen significant performance
drops. Our code is available at https://github.com/luka-group/Lattice.
- Abstract(参考訳): 制御されたテーブル・トゥ・テキスト生成は、テーブルのハイライトされた部分の自然言語記述を生成する。
従来のSOTAシステムでは、テーブルを線形構造として捉えるだけでテーブルレイアウトが変化しても不安定なシーケンス・ツー・シーケンス生成方式が採用されていた。
我々は,(1)表中のコンテンツ要素の関係を効果的に表現すること,(2)モデルがコンテンツ不変構造変換に堅牢にすること,により,このパラダイムを超越しようとする。
そこで本研究では,テーブルを構造認識型自己照査機構で符号化する等分散学習フレームワークを提案する。
これにより、完全な自己アテンション構造を順序不変グラフアテンションに抽出し、同じ行や列に属する細胞の連結グラフ構造をキャプチャし、関連する細胞と無関係な細胞を構造的観点から区別する。
また,同一セルにおけるトークンの相対的な位置を保ちつつ,異なるセル間の位置不変性を強制する位置符号化機構を改良した。
我々の技術は、既存のテーブル・ツー・テキスト生成モデルに自由にプラグインでき、T5ベースのモデルを改善し、ToTToとHiTabのパフォーマンスを改善しました。
さらに, totto の難解なバージョンでは, 従来の sota システムでは, トランスフォーメーションベースのデータ拡張においても, 大幅な性能低下が見られたが, 有望な性能を保っている。
私たちのコードはhttps://github.com/luka-group/latticeで利用可能です。
関連論文リスト
- Unifying Structured Data as Graph for Data-to-Text Pre-Training [69.96195162337793]
Data-to-text (D2T) の生成は、構造化されたデータを自然言語テキストに変換することを目的としている。
データからテキストへの事前学習は、D2T生成の強化に強力であることが証明された。
構造強化トランスを設計し,D2T生成のための構造強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T12:23:49Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - TableFormer: Robust Transformer Modeling for Table-Text Encoding [18.00127368618485]
テーブル理解のための既存のモデルはテーブル構造の線形化を必要とし、行や列の順序は不要なバイアスとしてエンコードされる。
本研究では,テーブルテキストエンコーディングアーキテクチャであるTableFormerを提案する。
論文 参考訳(メタデータ) (2022-03-01T07:23:06Z) - Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。
SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文 参考訳(メタデータ) (2021-07-12T06:26:19Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。