論文の概要: TabSim: A Siamese Neural Network for Accurate Estimation of Table
Similarity
- arxiv url: http://arxiv.org/abs/2008.10856v1
- Date: Tue, 25 Aug 2020 07:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:43:17.997629
- Title: TabSim: A Siamese Neural Network for Accurate Estimation of Table
Similarity
- Title(参考訳): TabSim:テーブル類似性の正確な推定のためのシームズニューラルネットワーク
- Authors: Maryam Habibi, Johannes Starlinger, Ulf Leser
- Abstract要約: 本稿では,ディープニューラルネットワークを用いたテーブル類似度スコアの計算手法であるTabSimを提案する。
本手法を訓練し,評価するために,生薬品から抽出した1500のテーブル対からなる金標準コーパスを開発した。
評価の結果,TabSim は他の表類似度指標を平均で 7% pp F1-score で 2次類似度分類と App. 1.5% pp で上回った。
- 参考スコア(独自算出の注目度): 5.889134549635538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tables are a popular and efficient means of presenting structured
information. They are used extensively in various kinds of documents including
web pages. Tables display information as a two-dimensional matrix, the
semantics of which is conveyed by a mixture of structure (rows, columns),
headers, caption, and content. Recent research has started to consider tables
as first class objects, not just as an addendum to texts, yielding interesting
results for problems like table matching, table completion, or value
imputation. All of these problems inherently rely on an accurate measure for
the semantic similarity of two tables. We present TabSim, a novel method to
compute table similarity scores using deep neural networks. Conceptually,
TabSim represents a table as a learned concatenation of embeddings of its
caption, its content, and its structure. Given two tables in this
representation, a Siamese neural network is trained to compute a score
correlating with the tables' semantic similarity. To train and evaluate our
method, we created a gold standard corpus consisting of 1500 table pairs
extracted from biomedical articles and manually scored regarding their degree
of similarity, and adopted two other corpora originally developed for a
different yet similar task. Our evaluation shows that TabSim outperforms other
table similarity measures on average by app. 7% pp F1-score in a binary
similarity classification setting and by app. 1.5% pp in a ranking scenario.
- Abstract(参考訳): テーブルは構造化された情報を提示するポピュラーで効率的な手段である。
ウェブページを含む様々な種類の文書で広く使われている。
表は情報を二次元行列として表示し、その意味論は構造(行、列)、ヘッダ、キャプション、コンテンツの混合によって伝達される。
最近の研究は、テーブルをテキストへの追加としてだけでなく、テーブルマッチング、テーブル補完、値計算といった問題に対する興味深い結果をもたらす、第一級オブジェクトとして捉え始めている。
これらの問題は、本質的には2つのテーブルの意味的類似性に対する正確な測度に依存する。
本稿では,深層ニューラルネットワークを用いたテーブル類似度スコア計算手法TabSimを提案する。
概念的には、TabSimはテーブルをキャプションの埋め込み、内容、構造に関する学習的な結合として表現する。
この表現に2つのテーブルが与えられると、シアムニューラルネットワークは、テーブルの意味的類似性に関連するスコアを計算するように訓練される。
そこで本研究では,本手法を学習・評価するために,生体医学品から抽出した1500対のテーブルペアからなる金の標準コーパスを作成し,その類似度について手作業でスコアを付けた。
評価の結果,TabSimはアプリ平均で他のテーブル類似度指標よりも優れていた。
7% pp F1-score in a binary similarity classification set and by app。
1.5%であった。
関連論文リスト
- Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from Text [21.699434525769586]
テーブルの品質評価のための既存の尺度は、テーブルの全体的なセマンティクスをキャプチャすることができない。
テーブルのセマンティクスをキャプチャするテーブル評価戦略であるTabEvalを提案する。
提案手法を検証するために,1250種類のウィキペディアテーブルのテキスト記述からなるデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-06-21T02:18:03Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Data augmentation on graphs for table type classification [1.1859913430860336]
グラフニューラルネットワークを用いてテーブルの分類を行い、使用中のメッセージパッシングアルゴリズムのテーブル構造を利用する。
我々は,グラフベースの表表現に適したデータ拡張手法を提案することで,有望な予備結果を実現する。
論文 参考訳(メタデータ) (2022-08-23T21:54:46Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。