論文の概要: STable: Table Generation Framework for Encoder-Decoder Models
- arxiv url: http://arxiv.org/abs/2206.04045v1
- Date: Wed, 8 Jun 2022 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:24:50.983912
- Title: STable: Table Generation Framework for Encoder-Decoder Models
- Title(参考訳): エンコーダ・デコーダモデルのためのテーブル生成フレームワーク
- Authors: Micha{\l} Pietruszka, Micha{\l} Turski, {\L}ukasz Borchmann, Tomasz
Dwojak, Gabriela Pa{\l}ka, Karolina Szyndler, Dawid Jurkiewicz, {\L}ukasz
Garncarek
- Abstract要約: 本稿では,ライン項目の抽出や共同エンティティ,関係抽出,知識ベース人口といった問題に適用可能なテキスト・ツー・テーブル・ニューラルモデルのためのフレームワークを提案する。
トレーニングは、因子化順序のすべてのランダムな置換にまたがるテーブルの内容に対する、期待されるログの類似度を最大化する。
実験では、いくつかの挑戦的なデータセットに対して最先端の結果を確立するフレームワークの実用的な価値を実証している。
- 参考スコア(独自算出の注目度): 5.07112098978226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The output structure of database-like tables, consisting of values structured
in horizontal rows and vertical columns identifiable by name, can cover a wide
range of NLP tasks. Following this constatation, we propose a framework for
text-to-table neural models applicable to problems such as extraction of line
items, joint entity and relation extraction, or knowledge base population. The
permutation-based decoder of our proposal is a generalized sequential method
that comprehends information from all cells in the table. The training
maximizes the expected log-likelihood for a table's content across all random
permutations of the factorization order. During the content inference, we
exploit the model's ability to generate cells in any order by searching over
possible orderings to maximize the model's confidence and avoid substantial
error accumulation, which other sequential models are prone to. Experiments
demonstrate a high practical value of the framework, which establishes
state-of-the-art results on several challenging datasets, outperforming
previous solutions by up to 15%.
- Abstract(参考訳): データベースライクなテーブルの出力構造は、水平行で構成された値と名前で識別可能な縦列で構成されており、幅広いnlpタスクをカバーすることができる。
この結果に従い,線項目の抽出や関係抽出,知識ベース人口といった問題に適用可能な,テキスト対テーブルニューラルモデルの枠組みを提案する。
本提案の置換型デコーダは,表内の全セルから情報を総合的に理解するシーケンシャルな手法である。
トレーニングは、因子化順序のすべてのランダムな置換にまたがるテーブルの内容に対する、期待されるログの類似度を最大化する。
コンテント推論では,任意の順序でセルを生成できる能力を利用して,可能な順序を探索し,モデルの信頼性を最大化し,他のシーケンシャルモデルに起因する重大なエラーの蓄積を回避する。
実験は、いくつかの挑戦的なデータセットで最先端の結果を確立し、以前のソリューションを最大15%上回る、このフレームワークの高実用的価値を実証する。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - ALTER: Augmentation for Large-Table-Based Reasoning [5.164923314261229]
ALTER(Augmentation for Large-Table-Based Reasoning)は、NL (Free-form Natural Language) とNL (Augmentation for Large-Table-Based Reasoning) の双方の質問において、潜在的な拡張可能性を活用するために設計されたフレームワークである。
テーブルからの関連データの小さなサブセットのみを利用することで、ALTERはテーブルベースの推論ベンチマークで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T12:34:45Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。