論文の概要: TabEmb: Joint Semantic-Structure Embedding for Table Annotation
- arxiv url: http://arxiv.org/abs/2604.18939v1
- Date: Tue, 21 Apr 2026 00:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.55157
- Title: TabEmb: Joint Semantic-Structure Embedding for Table Annotation
- Title(参考訳): TabEmb: テーブルアノテーションのための共同意味構造埋め込み
- Authors: Ehsan Hoseinzade, Ke Wang, Anandharaju Durai Raju,
- Abstract要約: テーブルアノテーションは、下流のNLPアプリケーションで使えるWebおよびエンタープライズテーブルを作るのに不可欠である。
既存のモデルは、2Dテーブルを1Dトークンシーケンスに線形化し、事前訓練された言語モデルでエンコードすることで学習する。
本研究では,構造モデリングからセマンティックエンコーディングを分離することで,これらの制約を直接ターゲットとするTabEmbを提案する。
- 参考スコア(独自算出の注目度): 3.03279900330493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table annotation is crucial for making web and enterprise tables usable in downstream NLP applications. Unlike textual data where learning semantically rich token or sentence embeddings often suffice, tables are structured combinations of columns wherein useful representations must jointly capture column's semantics and the inter-column relationships. Existing models learn by linearizing the 2D table into a 1D token sequence and encoding it with pretrained language models (PLMs) such as BERT. However, this leads to limited semantic quality and weaker generalization to unseen or rare values compared to modern LLMs, and degraded structural modeling due to 2D-to-1D flattening and context-length constraints. We propose TabEmb, which directly targets these limitations by decoupling semantic encoding from structural modeling. An LLM first produces semantically rich embeddings for each column, and a graph-based module over columns then injects relationships into the embeddings, yielding joint semantic-tructural representations for table annotation. Experiments show that TabEmb consistently outperforms strong baselines on different table annotation tasks. Source code and datasets are available at https://github.com/hoseinzadeehsan/TabEmb
- Abstract(参考訳): テーブルアノテーションは、下流のNLPアプリケーションで使えるWebおよびエンタープライズテーブルを作るのに不可欠である。
意味的に豊かなトークンや文の埋め込みを学習するテキストデータとは異なり、テーブルは列の構造化された組み合わせであり、有用な表現は列のセマンティクスと列間の関係を共同でキャプチャする必要がある。
既存のモデルは、2Dテーブルを1Dトークンシーケンスに線形化し、BERTのような事前訓練された言語モデル(PLM)で符号化することで学習する。
しかし、これによって意味的品質が制限され、近代のLLMと比べて目に見えない値や稀な値への一般化が弱まり、2D-to-1D平坦化と文脈長制約による構造モデリングが低下する。
本研究では,構造モデリングからセマンティックエンコーディングを分離することで,これらの制約を直接ターゲットとするTabEmbを提案する。
LLMはまず各列に対してセマンティックにリッチな埋め込みを生成し、カラム上のグラフベースのモジュールは埋め込みに関係を注入し、テーブルアノテーションの結合意味構造表現を生成する。
実験の結果、TabEmbはさまざまなテーブルアノテーションタスクにおいて、一貫して強いベースラインを上回ります。
ソースコードとデータセットはhttps://github.com/hoseinzadeehsan/TabEmbで入手できる。
関連論文リスト
- TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment [70.83664203825235]
TDATR(Table Detail-Aware Table Recognition)は、テーブルの詳細学習とセルレベルの視覚アライメントにより、エンドツーエンドのTRを改善する。
データセット固有の微調整なしで、7つのベンチマークで最先端または高い競争性能を達成する。
論文 参考訳(メタデータ) (2026-03-24T05:45:02Z) - Language Model Representations for Efficient Few-Shot Tabular Classification [17.63549220100997]
大規模言語モデル(LLM)はセマンティック検索のようなタスクにおいて、Webインフラストラクチャのますます統合的なコンポーネントになりつつある。
本稿では、$textbfTa$ble $textbfR$epresentation with $textbfL$anguage Modelという軽量パラダイムを調査します。
提案手法は,低データ方式の最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2026-01-21T23:28:51Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Taxonomy Inference for Tabular Data Using Large Language Models [31.121233193993906]
本稿では,表に対する分類的推論法として, (i) EmTT, (ii) GeTT, (ii) GPT-4 のようなデコーダ・アローン LLM を用いてテーブルエンティティの型と階層を生成する。
論文 参考訳(メタデータ) (2025-03-25T16:26:05Z) - CARTE: Pretraining and Transfer for Tabular Learning [10.155109224816334]
このような対応を必要としないニューラルアーキテクチャを提案する。
結果として、マッチしていないバックグラウンドデータに基づいて事前トレーニングを行うことができる。
ベンチマークでは、CARTEが学習を促進し、ベースラインの堅実なセットを上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-26T18:00:29Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - TabEAno: Table to Knowledge Graph Entity Annotation [7.451544182579802]
本稿では,テーブル行を知識グラフエンティティに意味論的にアノテートするための新しいアプローチであるTabEAnoを提案する。
表の同じ行の2つの閉セル間の知識グラフに既存の論理的関係が存在するという仮定に基づいて、「2セル」のルックアップ戦略を導入する。
アプローチの単純さにもかかわらず、TabEAnoは2つの標準データセットにおけるアートアプローチの状態を上回ります。
論文 参考訳(メタデータ) (2020-10-05T07:39:02Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。