論文の概要: A Sequence-to-Sequence&Set Model for Text-to-Table Generation
- arxiv url: http://arxiv.org/abs/2306.00137v1
- Date: Wed, 31 May 2023 19:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:48:54.566161
- Title: A Sequence-to-Sequence&Set Model for Text-to-Table Generation
- Title(参考訳): テキスト対テーブル生成のためのシーケンシャル・ツー・シーケンス・セットモデル
- Authors: Tong Li, Zhihao Wang, Liangying Shao, Xuling Zheng, Xiaoli Wang,
Jinsong Su
- Abstract要約: 本稿では,新しいシーケンス・ツー・シーケンス・セットのテキスト・ツー・テーブル生成モデルを提案する。
具体的には、まず、ほとんどの行の生成が順序に敏感であることを示す予備的な研究を行う。
実験結果から,本モデルがベースラインをはるかに上回ることがわかった。
- 参考スコア(独自算出の注目度): 35.65374526264392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the text-to-table generation task has attracted increasing
attention due to its wide applications. In this aspect, the dominant model
formalizes this task as a sequence-to-sequence generation task and serializes
each table into a token sequence during training by concatenating all rows in a
top-down order. However, it suffers from two serious defects: 1) the predefined
order introduces a wrong bias during training, which highly penalizes shifts in
the order between rows; 2) the error propagation problem becomes serious when
the model outputs a long token sequence. In this paper, we first conduct a
preliminary study to demonstrate the generation of most rows is
order-insensitive. Furthermore, we propose a novel sequence-to-sequence&set
text-to-table generation model. Specifically, in addition to a text encoder
encoding the input text, our model is equipped with a table header generator to
first output a table header, i.e., the first row of the table, in the manner of
sequence generation. Then we use a table body generator with learnable row
embeddings and column embeddings to generate a set of table body rows in
parallel. Particularly, to deal with the issue that there is no correspondence
between each generated table body row and target during training, we propose a
target assignment strategy based on the bipartite matching between the first
cells of generated table body rows and targets. Experiment results show that
our model significantly surpasses the baselines, achieving state-of-the-art
performance on commonly-used datasets.
- Abstract(参考訳): 近年,テキストからテーブルへの生成タスクが注目されている。
この面では、支配的モデルは、このタスクをシーケンスからシーケンスへの生成タスクとして定式化し、各テーブルをトップダウン順序ですべての行を連結することで、トレーニング中にトークンシーケンスにシリアライズする。
しかし、深刻な欠陥が2つある。
1) 事前定義された順序は,トレーニング中に誤ったバイアスを生じさせ,行間の順序の変化を強く罰する。
2)モデルが長いトークンシーケンスを出力すると,エラー伝搬問題は深刻になる。
本稿では,まず,ほとんどの行の生成が順序に敏感であることを示す予備的研究を行う。
さらに,新しいシーケンシャル・ツー・シーケンス・セットテキスト・ツー・テーブル生成モデルを提案する。
具体的には、入力テキストを符号化するテキストエンコーダに加えて、テーブルヘッダー生成器を備え、テーブルヘッダー、すなわちテーブルの最初の行をシーケンス生成の方法で出力する。
次に、学習可能な行埋め込みと列埋め込みを備えたテーブルボディジェネレータを使用して、テーブルボディ行のセットを並列に生成する。
特に、訓練中に生成されたテーブル本体列とターゲットとの間に対応しない問題に対処するために、生成したテーブル本体列とターゲットの第一セルとの二部間マッチングに基づく目標割当戦略を提案する。
実験結果から,本モデルがベースラインをはるかに上回り,一般用データセットの最先端性能を実現することが示された。
関連論文リスト
- gTBLS: Generating Tables from Text by Conditional Question Answering [3.240750198587796]
本稿では、生成テーブル(gTBLS)と呼ばれる2段階のアプローチを提案する。
第1段は、テキストからテーブル構造(ロウとカラムヘッダ)を推論する。
第2段階では、これらのヘッダを使って質問を定式化し、それに対応するために因果言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-03-21T15:04:32Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Few-Shot Table-to-Text Generation with Prefix-Controlled Generator [11.891732582638227]
本稿では,PCG(Prefix-Controlled Generator)というプロンプトベースの手法を提案する。
PLMのタスク固有のプレフィックスをプリペイドし、テーブル構造を事前訓練された入力に適合させる。
さらに、入力固有の接頭辞を生成し、生成したテキストの事実内容と語順を制御する。
論文 参考訳(メタデータ) (2022-08-23T03:23:26Z) - STable: Table Generation Framework for Encoder-Decoder Models [5.07112098978226]
本稿では,ライン項目の抽出や共同エンティティ,関係抽出,知識ベース人口といった問題に適用可能なテキスト・ツー・テーブル・ニューラルモデルのためのフレームワークを提案する。
トレーニングは、因子化順序のすべてのランダムな置換にまたがるテーブルの内容に対する、期待されるログの類似度を最大化する。
実験では、いくつかの挑戦的なデータセットに対して最先端の結果を確立するフレームワークの実用的な価値を実証している。
論文 参考訳(メタデータ) (2022-06-08T17:59:02Z) - Conditional set generation using Seq2seq models [52.516563721766445]
条件セット生成は、トークンの入力シーケンスからセットへのマッピングを学習する。
シーケンス・ツー・シーケンス(Seq2seq)モデルは、モデルセット生成において一般的な選択である。
本稿では,ラベル順序空間上の情報的順序を効果的に抽出する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-25T04:17:50Z) - Sequence-to-Action: Grammatical Error Correction with Action Guided
Sequence Generation [21.886973310718457]
本稿では,文法的誤り訂正のための新しいSequence-to-Action(S2A)モジュールを提案する。
S2Aモジュールは、ソースとターゲット文を共同で入力とし、トークンレベルのアクションシーケンスを自動的に生成することができる。
我々のモデルはセq2seqベースラインを一貫して上回り、過補正問題を著しく軽減することができる。
論文 参考訳(メタデータ) (2022-05-22T17:47:06Z) - Robust (Controlled) Table-to-Text Generation with Structure-Aware
Equivariance Learning [24.233552674892906]
制御されたテーブル・トゥ・テキスト生成は、テーブルのハイライトされた部分の自然言語記述を生成する。
構造認識型自己認識機構で表を符号化する等分散学習フレームワークを提案する。
我々の技術は、既存のテーブル・ツー・テキスト生成モデルに自由にプラグインでき、T5ベースのモデルを改善し、ToTToとHiTabのパフォーマンスを改善しました。
論文 参考訳(メタデータ) (2022-05-08T23:37:27Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。