論文の概要: Inferring Tabular Analysis Metadata by Infusing Distribution and
Knowledge Information
- arxiv url: http://arxiv.org/abs/2209.00946v1
- Date: Fri, 2 Sep 2022 11:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:55:05.094360
- Title: Inferring Tabular Analysis Metadata by Infusing Distribution and
Knowledge Information
- Title(参考訳): 分布と知識情報の拡散による語彙分析メタデータの推測
- Authors: Xinyi He, Mengyu Zhou, Jialiang Xu, Xiao Lv, Tianle Li, Yijia Shao,
Shi Han, Zejian Yuan, Dongmei Zhang
- Abstract要約: 本稿では,測定/次元二分法,共通フィールドの役割,意味的フィールドタイプ,デフォルトアグリゲーション関数の4つの分析メタデータを同定する。
本稿では,これらのメタデータを生のテーブルに推論するために,マルチタスクメタデータモデルを提案する。
我々の最良のモデルは、精度=98%、ヒット率=トップ-1 > 67%、精度=80%、そして4つの分析メタデータ推論タスクの精度=88%である。
- 参考スコア(独自算出の注目度): 31.736316809376017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many data analysis tasks heavily rely on a deep understanding of tables
(multi-dimensional data). Across the tasks, there exist comonly used metadata
attributes of table fields / columns. In this paper, we identify four such
analysis metadata: Measure/dimension dichotomy, common field roles, semantic
field type, and default aggregation function. While those metadata face
challenges of insufficient supervision signals, utilizing existing knowledge
and understanding distribution. To inference these metadata for a raw table, we
propose our multi-tasking Metadata model which fuses field distribution and
knowledge graph information into pre-trained tabular models. For model training
and evaluation, we collect a large corpus (~582k tables from private
spreadsheet and public tabular datasets) of analysis metadata by using diverse
smart supervisions from downstream tasks. Our best model has accuracy = 98%,
hit rate at top-1 > 67%, accuracy > 80%, and accuracy = 88% for the four
analysis metadata inference tasks, respectively. It outperforms a series of
baselines that are based on rules, traditional machine learning methods, and
pre-trained tabular models. Analysis metadata models are deployed in a popular
data analysis product, helping downstream intelligent features such as insights
mining, chart / pivot table recommendation, and natural language QA...
- Abstract(参考訳): 多くのデータ分析タスクはテーブル(多次元データ)の深い理解に大きく依存している。
タスク全体では、テーブルフィールド/列のメタデータ属性にのみ使用される。
本稿では,4つの分析メタデータを識別する:測定/次元二分法,共通フィールドの役割,意味的フィールドタイプ,デフォルトアグリゲーション関数。
これらのメタデータは、監視信号が不十分な問題に直面している一方で、既存の知識と理解分布を活用している。
これらのメタデータを生の表で推論するために,フィールド分布と知識グラフ情報を予め学習した表型モデルに融合したマルチタスクメタデータモデルを提案する。
モデルトレーニングと評価のために、下流タスクからの多様なスマート監視を用いて、分析メタデータの大規模なコーパス(プライベートスプレッドシートと公開表データセットから約582kのテーブル)を収集する。
私たちの最良のモデルは、精度 = 98%、ヒット率トップ-1 > 67%、精度 > 80%、そして4つの分析メタデータ推論タスクの精度 = 88%です。
ルールや従来の機械学習手法、事前学習された表モデルに基づく一連のベースラインよりも優れています。
分析メタデータモデルは一般的なデータ分析製品にデプロイされ、インサイトマイニング、チャート/ピボットテーブルレコメンデーション、自然言語qaといった下流のインテリジェントな機能を支援する。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。
データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。
私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文 参考訳(メタデータ) (2024-08-11T13:58:31Z) - TOTEM: TOkenized Time Series EMbeddings for General Time Series Analysis [32.854449155765344]
本稿では,自己教師型で学習した離散ベクトル化表現を用いて,様々な領域からの時系列データを埋め込んだ簡易なトークン化アーキテクチャを提案する。
3つのタスクにわたる17のリアルタイム時系列データセットに対して,TOTEMの有効性を広範囲に評価して検討した。
論文 参考訳(メタデータ) (2024-02-26T09:11:12Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Automatic universal taxonomies for multi-domain semantic segmentation [1.4364491422470593]
複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。
確立されたデータセットには 互いに互換性のないラベルがあります 野生の原理的推論を妨害します
我々は、反復的データセット統合による普遍的な構築によってこの問題に対処する。
論文 参考訳(メタデータ) (2022-07-18T08:53:17Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Explaining the Performance of Multi-label Classification Methods with
Data Set Properties [1.1278903078792917]
MLC(Multi-label Classification)のためのデータセットと手法に関する総合メタラーニング研究を提案する。
ここでは,40個のMLCデータセットを,データの異なる特性を記述した50個のメタ特徴を用いて解析する。
MLCデータセットの空間を記述する最も顕著なメタ機能は、ラベル空間の異なる側面を評価するものである。
論文 参考訳(メタデータ) (2021-06-28T11:00:05Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Mapping Patterns for Virtual Knowledge Graphs [71.61234136161742]
仮想知識グラフ(VKG)は、レガシーデータソースの統合とアクセスのための最も有望なパラダイムの1つである。
データ管理、データ分析、概念モデリングにおいて研究された、確立された方法論とパターンに基づいて構築する。
検討されたVKGシナリオに基づいて,私たちのカタログを検証し,そのパターンの大部分をカバーすることを示す。
論文 参考訳(メタデータ) (2020-12-03T13:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。