論文の概要: Making Table Understanding Work in Practice
- arxiv url: http://arxiv.org/abs/2109.05173v1
- Date: Sat, 11 Sep 2021 03:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:10:44.700613
- Title: Making Table Understanding Work in Practice
- Title(参考訳): テーブル理解を実践する
- Authors: Madelon Hulsebos and Sneha Gathani and James Gale and Isil Dillig and
Paul Groth and \c{C}a\u{g}atay Demiralp
- Abstract要約: 表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
- 参考スコア(独自算出の注目度): 9.352813774921655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the semantics of tables at scale is crucial for tasks like data
integration, preparation, and search. Table understanding methods aim at
detecting a table's topic, semantic column types, column relations, or
entities. With the rise of deep learning, powerful models have been developed
for these tasks with excellent accuracy on benchmarks. However, we observe that
there exists a gap between the performance of these models on these benchmarks
and their applicability in practice. In this paper, we address the question:
what do we need for these models to work in practice?
We discuss three challenges of deploying table understanding models and
propose a framework to address them. These challenges include 1) difficulty in
customizing models to specific domains, 2) lack of training data for typical
database tables often found in enterprises, and 3) lack of confidence in the
inferences made by models. We present SigmaTyper which implements this
framework for the semantic column type detection task. SigmaTyper encapsulates
a hybrid model trained on GitTables and integrates a lightweight
human-in-the-loop approach to customize the model. Lastly, we highlight avenues
for future research that further close the gap towards making table
understanding effective in practice.
- Abstract(参考訳): 大規模なテーブルの意味を理解することは、データ統合、準備、検索といったタスクに不可欠です。
テーブル理解方法は、テーブルのトピック、セマンティックカラムタイプ、列関係、エンティティを検出することを目的としています。
ディープラーニングの台頭に伴い、これらのタスクのための強力なモデルが開発され、ベンチマークの精度は良好である。
しかし、これらのモデルの性能と実際の適用性との間にはギャップがあることを観察する。
この論文では、これらのモデルが実際に機能するためには、何が必要なのか?
テーブル理解モデルのデプロイに関する3つの課題を議論し,それに対処するフレームワークを提案する。
これらの課題には
1)特定のドメインにモデルをカスタマイズすることの難しさ。
2)企業でよく見られる典型的なデータベース表のトレーニングデータの欠如
3)モデルによる推論に対する信頼の欠如。
本稿では,このフレームワークをセマンティクスカラム型検出タスクに実装したsigmatyperを提案する。
SigmaTyperはGitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズする。
最後に、テーブル理解を実践に有効にするためのギャップをさらに埋める将来の研究の道のりを強調した。
関連論文リスト
- Observatory: Characterizing Embeddings of Relational Tables [15.808819332614712]
研究者や実践者は、多くの新しいアプリケーションコンテキストにおいて、言語とテーブルの埋め込みモデルを活用することに熱心です。
下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。
本研究では,関係表の埋め込み表現を体系的に解析する公式なフレームワークであるObservatoryを提案する。
論文 参考訳(メタデータ) (2023-10-05T00:58:45Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - CHORUS: Foundation Models for Unified Data Discovery and Exploration [7.263122361958941]
ファンデーションモデルは、トレーニングとは無関係なさまざまなタスクにおいて、有望なパフォーマンスを示す大きな言語モデルである。
これらのモデルは、データ発見およびデータ探索領域に非常に適用可能であることを示す。
これら3つの課題において,基礎モデルに基づくアプローチがタスク固有のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T03:58:42Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z) - Leveraging Table Content for Zero-shot Text-to-SQL with Meta-Learning [25.69875174742935]
単一テーブルのテキスト・トゥ・ワンは、自然言語の質問を単一のテーブルに従ってクエリに変換することを目的としている。
我々は、追加のマニュアルアノテーションに依存しないゼロショットテキスト・ツー・ワンタスクに対して、新しいアプローチを提案する。
パブリックなオープンドメインのテキスト・ツー・ワン・データセットとドメイン固有のデータセットEについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-12T01:01:28Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - TURL: Table Understanding through Representation Learning [29.6016859927782]
TURLは、リレーショナルWebテーブルに事前トレーニング/ファインタニングパラダイムを導入する新しいフレームワークである。
事前学習中、我々のフレームワークは教師なしの方法で関係表上の深い文脈化された表現を学習する。
我々は,TURLがすべてのタスクを一般化し,既存のメソッドをほぼすべてのインスタンスで大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-26T05:44:54Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。