論文の概要: Making Table Understanding Work in Practice
- arxiv url: http://arxiv.org/abs/2109.05173v1
- Date: Sat, 11 Sep 2021 03:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:10:44.700613
- Title: Making Table Understanding Work in Practice
- Title(参考訳): テーブル理解を実践する
- Authors: Madelon Hulsebos and Sneha Gathani and James Gale and Isil Dillig and
Paul Groth and \c{C}a\u{g}atay Demiralp
- Abstract要約: 表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
- 参考スコア(独自算出の注目度): 9.352813774921655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the semantics of tables at scale is crucial for tasks like data
integration, preparation, and search. Table understanding methods aim at
detecting a table's topic, semantic column types, column relations, or
entities. With the rise of deep learning, powerful models have been developed
for these tasks with excellent accuracy on benchmarks. However, we observe that
there exists a gap between the performance of these models on these benchmarks
and their applicability in practice. In this paper, we address the question:
what do we need for these models to work in practice?
We discuss three challenges of deploying table understanding models and
propose a framework to address them. These challenges include 1) difficulty in
customizing models to specific domains, 2) lack of training data for typical
database tables often found in enterprises, and 3) lack of confidence in the
inferences made by models. We present SigmaTyper which implements this
framework for the semantic column type detection task. SigmaTyper encapsulates
a hybrid model trained on GitTables and integrates a lightweight
human-in-the-loop approach to customize the model. Lastly, we highlight avenues
for future research that further close the gap towards making table
understanding effective in practice.
- Abstract(参考訳): 大規模なテーブルの意味を理解することは、データ統合、準備、検索といったタスクに不可欠です。
テーブル理解方法は、テーブルのトピック、セマンティックカラムタイプ、列関係、エンティティを検出することを目的としています。
ディープラーニングの台頭に伴い、これらのタスクのための強力なモデルが開発され、ベンチマークの精度は良好である。
しかし、これらのモデルの性能と実際の適用性との間にはギャップがあることを観察する。
この論文では、これらのモデルが実際に機能するためには、何が必要なのか?
テーブル理解モデルのデプロイに関する3つの課題を議論し,それに対処するフレームワークを提案する。
これらの課題には
1)特定のドメインにモデルをカスタマイズすることの難しさ。
2)企業でよく見られる典型的なデータベース表のトレーニングデータの欠如
3)モデルによる推論に対する信頼の欠如。
本稿では,このフレームワークをセマンティクスカラム型検出タスクに実装したsigmatyperを提案する。
SigmaTyperはGitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズする。
最後に、テーブル理解を実践に有効にするためのギャップをさらに埋める将来の研究の道のりを強調した。
関連論文リスト
- TableGPT2: A Large Multimodal Model with Tabular Data Integration [22.77225649639725]
TableGPT2は、593.8K以上のテーブルと2.36Mの高品質なクエリテーブル出力を備えた、厳格に事前訓練および微調整されたモデルである。
TableGPT2の重要な革新の1つは、スキーマレベルとセルレベルの情報をキャプチャするために特別に設計されたテーブルエンコーダである。
論文 参考訳(メタデータ) (2024-11-04T13:03:13Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Observatory: Characterizing Embeddings of Relational Tables [15.808819332614712]
研究者や実践者は、多くの新しいアプリケーションコンテキストにおいて、言語とテーブルの埋め込みモデルを活用することに熱心です。
下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。
本研究では,関係表の埋め込み表現を体系的に解析する公式なフレームワークであるObservatoryを提案する。
論文 参考訳(メタデータ) (2023-10-05T00:58:45Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - CHORUS: Foundation Models for Unified Data Discovery and Exploration [6.85448651843431]
基礎モデルは,データ発見およびデータ探索領域に適用可能であることを示す。
基礎モデルに基づくアプローチは,タスク固有のモデルよりも優れており,その技術の現状を示す。
これは、異なるデータ管理タスクを基礎モデルの下で統一できる将来的な方向性を示唆している。
論文 参考訳(メタデータ) (2023-06-16T03:58:42Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - TURL: Table Understanding through Representation Learning [29.6016859927782]
TURLは、リレーショナルWebテーブルに事前トレーニング/ファインタニングパラダイムを導入する新しいフレームワークである。
事前学習中、我々のフレームワークは教師なしの方法で関係表上の深い文脈化された表現を学習する。
我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-26T05:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。