論文の概要: Retrieving Complex Tables with Multi-Granular Graph Representation
Learning
- arxiv url: http://arxiv.org/abs/2105.01736v1
- Date: Tue, 4 May 2021 20:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:56:36.433828
- Title: Retrieving Complex Tables with Multi-Granular Graph Representation
Learning
- Title(参考訳): 多角グラフ表現学習による複合表の検索
- Authors: Fei Wang, Kexuan Sun, Muhao Chen, Jay Pujara, Pedro Szekely
- Abstract要約: 自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
- 参考スコア(独自算出の注目度): 20.72341939868327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The task of natural language table retrieval (NLTR) seeks to retrieve
semantically relevant tables based on natural language queries. Existing
learning systems for this task often treat tables as plain text based on the
assumption that tables are structured as dataframes. However, tables can have
complex layouts which indicate diverse dependencies between subtable
structures, such as nested headers. As a result, queries may refer to different
spans of relevant content that is distributed across these structures.
Moreover, such systems fail to generalize to novel scenarios beyond those seen
in the training set. Prior methods are still distant from a generalizable
solution to the NLTR problem, as they fall short in handling complex table
layouts or queries over multiple granularities. To address these issues, we
propose Graph-based Table Retrieval (GTR), a generalizable NLTR framework with
multi-granular graph representation learning. In our framework, a table is
first converted into a tabular graph, with cell nodes, row nodes and column
nodes to capture content at different granularities. Then the tabular graph is
input to a Graph Transformer model that can capture both table cell content and
the layout structures. To enhance the robustness and generalizability of the
model, we further incorporate a self-supervised pre-training task based on
graph-context matching. Experimental results on two benchmarks show that our
method leads to significant improvements over the current state-of-the-art
systems. Further experiments demonstrate promising performance of our method on
cross-dataset generalization, and enhanced capability of handling complex
tables and fulfilling diverse query intents. Code and data are available at
https://github.com/FeiWang96/GTR.
- Abstract(参考訳): 自然言語テーブル検索(NLTR)の課題は,自然言語クエリに基づく意味論的テーブルの検索である。
このタスクの既存の学習システムは、テーブルがデータフレームとして構造化されているという仮定に基づいて、テーブルをプレーンテキストとして扱うことが多い。
しかしテーブルには複雑なレイアウトがあり、ネストヘッダーのようなサブテーブル構造間の様々な依存関係を示す。
結果として、クエリは、これらの構造にまたがる様々な関連コンテンツのスパンを参照することができる。
さらに、そのようなシステムは、トレーニングセットで見られる以上の新しいシナリオに一般化することができない。
従来の手法は、複雑なテーブルレイアウトや複数の粒度のクエリを扱うのに不足するため、NLTR問題に対する一般化可能な解決策からまだ遠い。
本稿では,多面的グラフ表現学習を用いた汎用nltrフレームワークであるgraph-based table retrieval (gtr)を提案する。
私たちのフレームワークでは、まずテーブルを表グラフに変換し、セルノード、行ノード、列ノードを使って異なる粒度でコンテンツをキャプチャします。
次に、表グラフがGraph Transformerモデルに入力され、テーブルセルの内容とレイアウト構造の両方をキャプチャすることができる。
モデルのロバスト性と一般化性を高めるために,グラフコンテキストマッチングに基づく自己教師付き事前学習タスクも取り入れる。
2つのベンチマークによる実験結果から,本手法は最先端システムよりも大幅に改善することが示された。
さらに, クロスデータセットの一般化における提案手法の有望な性能を示すとともに, 複雑なテーブルの処理能力を高め, 多様なクエリインテントを実現する。
コードとデータはhttps://github.com/FeiWang96/GTRで公開されている。
関連論文リスト
- CARTE: Pretraining and Transfer for Tabular Learning [10.155109224816334]
このような対応を必要としないニューラルアーキテクチャを提案する。
結果として、マッチしていないバックグラウンドデータに基づいて事前トレーニングを行うことができる。
ベンチマークでは、CARTEが学習を促進し、ベースラインの堅実なセットを上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:00:29Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Data augmentation on graphs for table type classification [1.1859913430860336]
グラフニューラルネットワークを用いてテーブルの分類を行い、使用中のメッセージパッシングアルゴリズムのテーブル構造を利用する。
我々は,グラフベースの表表現に適したデータ拡張手法を提案することで,有望な予備結果を実現する。
論文 参考訳(メタデータ) (2022-08-23T21:54:46Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TURL: Table Understanding through Representation Learning [29.6016859927782]
TURLは、リレーショナルWebテーブルに事前トレーニング/ファインタニングパラダイムを導入する新しいフレームワークである。
事前学習中、我々のフレームワークは教師なしの方法で関係表上の深い文脈化された表現を学習する。
我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-26T05:44:54Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。