論文の概要: AnaMeta: A Table Understanding Dataset of Field Metadata Knowledge
Shared by Multi-dimensional Data Analysis Tasks
- arxiv url: http://arxiv.org/abs/2209.00946v2
- Date: Sat, 27 May 2023 11:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:41:36.873771
- Title: AnaMeta: A Table Understanding Dataset of Field Metadata Knowledge
Shared by Multi-dimensional Data Analysis Tasks
- Title(参考訳): AnaMeta:多次元データ解析タスクで共有されるフィールドメタデータ知識のテーブル理解データセット
- Authors: Xinyi He, Mengyu Zhou, Mingjie Zhou, Jialiang Xu, Xiao Lv, Tianle Li,
Yijia Shao, Shi Han, Zejian Yuan, Dongmei Zhang
- Abstract要約: AnaMetaデータセットは、4種類の一般的なフィールドメタデータに対して、導出された監視ラベルを持つ467kテーブルの集合である。
ベンチマークとしてメタデータを推測するための幅広いモデルを評価する。
ダウンストリーム解析タスクにフィールドメタデータを組み込むための4つのインタフェースを提案する。
- 参考スコア(独自算出の注目度): 30.63485722768747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data analysis is performed every day across various domains. It
requires an accurate understanding of field semantics to correctly operate on
table fields and find common patterns in daily analysis. In this paper, we
introduce the AnaMeta dataset, a collection of 467k tables with derived
supervision labels for four types of commonly used field metadata:
measure/dimension dichotomy, common field roles, semantic field type, and
default aggregation function. We evaluate a wide range of models for inferring
metadata as the benchmark. We also propose a multi-encoder framework, called
KDF, which improves the metadata understanding capability of tabular models by
incorporating distribution and knowledge information. Furthermore, we propose
four interfaces for incorporating field metadata into downstream analysis
tasks.
- Abstract(参考訳): タブラルデータ分析は、様々なドメインで毎日行われます。
テーブルフィールド上で正しく操作し、日々の分析で共通のパターンを見つけるためには、フィールドセマンティクスを正確に理解する必要がある。
本稿では,4種類の共通フィールドメタデータ(測定/次元二分法,共通フィールドロール,セマンティックフィールドタイプ,デフォルトアグリゲーション関数)を導出した467kテーブルの集合であるAnaMetaデータセットを紹介する。
ベンチマークとしてメタデータを推測するための幅広いモデルを評価する。
また,kdfと呼ばれるマルチエンコーダフレームワークを提案し,分散情報と知識情報を取り込むことで,表モデルのメタデータ理解能力を向上させる。
さらに,フィールドメタデータを下流解析タスクに組み込むための4つのインタフェースを提案する。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。
データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。
私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文 参考訳(メタデータ) (2024-08-11T13:58:31Z) - TOTEM: TOkenized Time Series EMbeddings for General Time Series Analysis [32.854449155765344]
本稿では,自己教師型で学習した離散ベクトル化表現を用いて,様々な領域からの時系列データを埋め込んだ簡易なトークン化アーキテクチャを提案する。
3つのタスクにわたる17のリアルタイム時系列データセットに対して,TOTEMの有効性を広範囲に評価して検討した。
論文 参考訳(メタデータ) (2024-02-26T09:11:12Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Automatic universal taxonomies for multi-domain semantic segmentation [1.4364491422470593]
複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。
確立されたデータセットには 互いに互換性のないラベルがあります 野生の原理的推論を妨害します
我々は、反復的データセット統合による普遍的な構築によってこの問題に対処する。
論文 参考訳(メタデータ) (2022-07-18T08:53:17Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Explaining the Performance of Multi-label Classification Methods with
Data Set Properties [1.1278903078792917]
MLC(Multi-label Classification)のためのデータセットと手法に関する総合メタラーニング研究を提案する。
ここでは,40個のMLCデータセットを,データの異なる特性を記述した50個のメタ特徴を用いて解析する。
MLCデータセットの空間を記述する最も顕著なメタ機能は、ラベル空間の異なる側面を評価するものである。
論文 参考訳(メタデータ) (2021-06-28T11:00:05Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Mapping Patterns for Virtual Knowledge Graphs [71.61234136161742]
仮想知識グラフ(VKG)は、レガシーデータソースの統合とアクセスのための最も有望なパラダイムの1つである。
データ管理、データ分析、概念モデリングにおいて研究された、確立された方法論とパターンに基づいて構築する。
検討されたVKGシナリオに基づいて,私たちのカタログを検証し,そのパターンの大部分をカバーすることを示す。
論文 参考訳(メタデータ) (2020-12-03T13:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。