Fugu-MT 論文翻訳(概要): AnaMeta: A Table Understanding Dataset of Field Metadata Knowledge Shared by Multi-dimensional Data Analysis Tasks

論文の概要: AnaMeta: A Table Understanding Dataset of Field Metadata Knowledge Shared by Multi-dimensional Data Analysis Tasks

arxiv url: http://arxiv.org/abs/2209.00946v2
Date: Sat, 27 May 2023 11:27:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 03:41:36.873771
Title: AnaMeta: A Table Understanding Dataset of Field Metadata Knowledge Shared by Multi-dimensional Data Analysis Tasks
Title（参考訳）: AnaMeta:多次元データ解析タスクで共有されるフィールドメタデータ知識のテーブル理解データセット
Authors: Xinyi He, Mengyu Zhou, Mingjie Zhou, Jialiang Xu, Xiao Lv, Tianle Li, Yijia Shao, Shi Han, Zejian Yuan, Dongmei Zhang
Abstract要約: AnaMetaデータセットは、4種類の一般的なフィールドメタデータに対して、導出された監視ラベルを持つ467kテーブルの集合である。ベンチマークとしてメタデータを推測するための幅広いモデルを評価する。ダウンストリーム解析タスクにフィールドメタデータを組み込むための4つのインタフェースを提案する。
参考スコア（独自算出の注目度）: 30.63485722768747
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tabular data analysis is performed every day across various domains. It requires an accurate understanding of field semantics to correctly operate on table fields and find common patterns in daily analysis. In this paper, we introduce the AnaMeta dataset, a collection of 467k tables with derived supervision labels for four types of commonly used field metadata: measure/dimension dichotomy, common field roles, semantic field type, and default aggregation function. We evaluate a wide range of models for inferring metadata as the benchmark. We also propose a multi-encoder framework, called KDF, which improves the metadata understanding capability of tabular models by incorporating distribution and knowledge information. Furthermore, we propose four interfaces for incorporating field metadata into downstream analysis tasks.
Abstract（参考訳）: タブラルデータ分析は、様々なドメインで毎日行われます。テーブルフィールド上で正しく操作し、日々の分析で共通のパターンを見つけるためには、フィールドセマンティクスを正確に理解する必要がある。本稿では,4種類の共通フィールドメタデータ(測定/次元二分法,共通フィールドロール,セマンティックフィールドタイプ,デフォルトアグリゲーション関数)を導出した467kテーブルの集合であるAnaMetaデータセットを紹介する。ベンチマークとしてメタデータを推測するための幅広いモデルを評価する。また,kdfと呼ばれるマルチエンコーダフレームワークを提案し,分散情報と知識情報を取り込むことで,表モデルのメタデータ理解能力を向上させる。さらに,フィールドメタデータを下流解析タスクに組み込むための4つのインタフェースを提案する。

関連論文リスト

World-POI: Global Point-of-Interest Data Enriched from Foursquare and OpenStreetMap as Tabular and Graph Data [1.2107297090229685]
最近Foursquareは1億以上の関心点(POI)を持つグローバルデータセットをリリースした。対照的に、OpenStreetMap (OSM) は、詳細なメタデータと頻繁な更新を伴う、リッチでユーザ対応のPOIデータセットを提供する。両データセットの長所を統合する方法論を提案する。
論文参考訳（メタデータ） (2025-10-24T11:12:41Z)
From Surface to Semantics: Semantic Structure Parsing for Table-Centric Document Analysis [9.526986293067576]
DOTABLERはテーブル中心のセマンティックドキュメント解析フレームワークである。包括的テーブルアンカレッド意味解析と意味論的関連テーブルの正確な抽出を提供する。実世界のPDFから1000以上のテーブルを持つ4000ページ近くで評価された。
論文参考訳（メタデータ） (2025-08-14T03:29:51Z)
Towards Automated Cross-domain Exploratory Data Analysis through Large Language Models [14.236566119377352]
本稿では,自動クロスドメイン探索データ分析システムであるTiInsightについて述べる。 TiInsightは、GPT-4を用いてスパイダーデータセット上で86.3%の階層的実行精度を達成した。また、Birdデータセット上での最先端のパフォーマンスも示す。
論文参考訳（メタデータ） (2024-12-10T06:11:23Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文参考訳（メタデータ） (2024-08-11T13:58:31Z)
TOTEM: TOkenized Time Series EMbeddings for General Time Series Analysis [32.854449155765344]
本稿では,自己教師型で学習した離散ベクトル化表現を用いて,様々な領域からの時系列データを埋め込んだ簡易なトークン化アーキテクチャを提案する。 3つのタスクにわたる17のリアルタイム時系列データセットに対して,TOTEMの有効性を広範囲に評価して検討した。
論文参考訳（メタデータ） (2024-02-26T09:11:12Z)
Text2Analysis: A Benchmark of Table Question Answering with Advanced Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。 3つの異なる指標を用いて5つの最先端モデルを評価する。
論文参考訳（メタデータ） (2023-12-21T08:50:41Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
Automatic universal taxonomies for multi-domain semantic segmentation [1.4364491422470593]
複数のデータセットに対するセマンティックセグメンテーションモデルのトレーニングは、コンピュータビジョンコミュニティに最近多くの関心を呼んだ。確立されたデータセットには互いに互換性のないラベルがあります野生の原理的推論を妨害します我々は、反復的データセット統合による普遍的な構築によってこの問題に対処する。
論文参考訳（メタデータ） (2022-07-18T08:53:17Z)
Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文参考訳（メタデータ） (2021-11-04T09:29:16Z)
Explaining the Performance of Multi-label Classification Methods with Data Set Properties [1.1278903078792917]
MLC(Multi-label Classification)のためのデータセットと手法に関する総合メタラーニング研究を提案する。ここでは,40個のMLCデータセットを,データの異なる特性を記述した50個のメタ特徴を用いて解析する。 MLCデータセットの空間を記述する最も顕著なメタ機能は、ラベル空間の異なる側面を評価するものである。
論文参考訳（メタデータ） (2021-06-28T11:00:05Z)
Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。私たちのアプローチは手動の分類学の調整を必要としません。
論文参考訳（メタデータ） (2021-02-25T18:55:58Z)
Mapping Patterns for Virtual Knowledge Graphs [71.61234136161742]
仮想知識グラフ(VKG)は、レガシーデータソースの統合とアクセスのための最も有望なパラダイムの1つである。データ管理、データ分析、概念モデリングにおいて研究された、確立された方法論とパターンに基づいて構築する。検討されたVKGシナリオに基づいて,私たちのカタログを検証し,そのパターンの大部分をカバーすることを示す。
論文参考訳（メタデータ） (2020-12-03T13:54:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。