論文の概要: Text-to-Table: A New Way of Information Extraction
- arxiv url: http://arxiv.org/abs/2109.02707v1
- Date: Mon, 6 Sep 2021 19:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 02:45:57.341196
- Title: Text-to-Table: A New Way of Information Extraction
- Title(参考訳): Text-to-Table:新しい情報抽出方法
- Authors: Xueqing Wu, Jiacheng Zhang, and Hang Li
- Abstract要約: テキスト・ツー・テーブル(text-to-table)と呼ばれる情報抽出(IE)の新たな問題設定について検討する。
テキスト・ツー・テーブルでは、テキストが与えられたら、そのテキストの主内容を表すテーブルやいくつかのテーブルを作成する。
実験では,既存のテーブル・ツー・テキスト・データセットを4つ使用しています。
- 参考スコア(独自算出の注目度): 8.326657025342042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a new problem setting of information extraction (IE), referred to as
text-to-table, which can be viewed as an inverse problem of the well-studied
table-to-text. In text-to-table, given a text, one creates a table or several
tables expressing the main content of the text, while the model is learned from
text-table pair data. The problem setting differs from those of the existing
methods for IE. First, the extraction can be carried out from long texts to
large tables with complex structures. Second, the extraction is entirely
data-driven, and there is no need to explicitly define the schemas. As far as
we know, there has been no previous work that studies the problem. In this
work, we formalize text-to-table as a sequence-to-sequence (seq2seq) problem.
We first employ a seq2seq model fine-tuned from a pre-trained language model to
perform the task. We also develop a new method within the seq2seq approach,
exploiting two additional techniques in table generation: table constraint and
table relation embeddings. We make use of four existing table-to-text datasets
in our experiments on text-to-table. Experimental results show that the vanilla
seq2seq model can outperform the baseline methods of using relation extraction
and named entity extraction. The results also show that our method can further
boost the performances of the vanilla seq2seq model. We further discuss the
main challenges of the proposed task. The code and data will be made publicly
available.
- Abstract(参考訳): 本稿では,テキスト・トゥ・テーブル(text-to-table)と呼ばれる,情報抽出(IE)の新たな問題設定について検討する。
テキスト対テーブル(text-to-table)では、与えられたテキストに対して、モデルがテキスト対ペアデータから学習される間、テキストの主コンテンツを表すテーブルまたは複数のテーブルを作成する。
問題設定はIEの既存の方法とは異なる。
まず、長いテキストから複雑な構造を持つ大きなテーブルへの抽出を行うことができる。
第二に、抽出は完全にデータ駆動であり、スキーマを明示的に定義する必要はない。
私たちの知る限り、この問題を研究する以前の研究はありませんでした。
本研究では,テキスト・ツー・テーブルをシーケンス・ツー・シーケンス(seq2seq)問題として定式化する。
まず,事前学習した言語モデルから微調整したseq2seqモデルを用いてタスクを実行する。
また,テーブル生成においてテーブル制約とテーブル関係埋め込みという2つの技法を活用し,seq2seqアプローチにおける新しい手法を開発した。
既存の4つのテーブル・ツー・テキストデータセットをtext-to-table実験で使用しました。
実験結果から,バニラSeq2seqモデルは,関係抽出と名前付き実体抽出のベースライン手法よりも優れていることがわかった。
また,本手法はバニラseq2seqモデルの性能をさらに向上させることができることを示した。
さらに,提案課題の主な課題について考察する。
コードとデータは公開される予定だ。
関連論文リスト
- Augment before You Try: Knowledge-Enhanced Table Question Answering via
Table Expansion [57.53174887650989]
テーブル質問応答は、構造化されたデータを理解し、相互作用するモデルの能力を評価する一般的なタスクである。
既存の方法は表と外部の知識の両方をテキストに変換し、表の構造的な性質を無視する。
そこで本稿では,表に外部情報を統合するための簡易で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-01-28T03:37:11Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。
本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文 参考訳(メタデータ) (2020-10-15T09:03:38Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。