論文の概要: SALT: Sales Autocompletion Linked Business Tables Dataset
- arxiv url: http://arxiv.org/abs/2501.03413v1
- Date: Mon, 06 Jan 2025 22:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:05.717248
- Title: SALT: Sales Autocompletion Linked Business Tables Dataset
- Title(参考訳): SALT: 自動補完リンクビジネステーブルのデータセット販売
- Authors: Tassilo Klein, Clemens Biehl, Margarida Costa, Andre Sres, Jonas Kolk, Johannes Hoffart,
- Abstract要約: エンタープライズリソースプランニング(ERP)システムから得られたキュレートされたデータセットを導入し、広範囲にリンクされたテーブルを特徴とする。
私たちのゴールは、現実世界のビジネスコンテキストにおけるモデルの有効性と適用性を高めることです。
- 参考スコア(独自算出の注目度): 7.036380633387952
- License:
- Abstract: Foundation models, particularly those that incorporate Transformer architectures, have demonstrated exceptional performance in domains such as natural language processing and image processing. Adapting these models to structured data, like tables, however, introduces significant challenges. These difficulties are even more pronounced when addressing multi-table data linked via foreign key, which is prevalent in the enterprise realm and crucial for empowering business use cases. Despite its substantial impact, research focusing on such linked business tables within enterprise settings remains a significantly important yet underexplored domain. To address this, we introduce a curated dataset sourced from an Enterprise Resource Planning (ERP) system, featuring extensive linked tables. This dataset is specifically designed to support research endeavors in table representation learning. By providing access to authentic enterprise data, our goal is to potentially enhance the effectiveness and applicability of models for real-world business contexts.
- Abstract(参考訳): ファンデーションモデル、特にTransformerアーキテクチャを取り入れたモデルは、自然言語処理や画像処理といった領域で例外的な性能を示している。
しかし、テーブルのような構造化データにこれらのモデルを適用することは、大きな課題をもたらす。
これらの困難は、企業領域で広く行き渡っており、ビジネスユースケースの強化に欠かせない、外部キーを介してリンクされたマルチテーブルデータに対処する上でさらに顕著である。
その大きな影響にもかかわらず、企業内のこのような関連ビジネステーブルに焦点をあてる研究は、依然として非常に重要でありながら、未調査の領域である。
これを解決するために,エンタープライズリソースプランニング(ERP)システムから得られたキュレートデータセットを導入し,広範囲にリンクされたテーブルを特徴とする。
このデータセットは、テーブル表現学習における研究の取り組みをサポートするように設計されている。
企業データへのアクセスを提供することで、私たちのゴールは、実世界のビジネスコンテキストにおけるモデルの有効性と適用性を高めることです。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Synthesizing Realistic Data for Table Recognition [4.500373384879752]
本稿では,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。
中国の金融発表から表の構造と内容を活用することで、我々は最初の広範囲な表アノテーションデータセットを開発した。
我々は、中国の金融発表領域における実世界の複合表の初歩的ベンチマークを確立し、このベンチマークを用いて、我々の合成データに基づいてトレーニングされたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-04-17T06:36:17Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Towards Foundation Models for Relational Databases [Vision Paper] [15.800326697562841]
関係表現学習のビジョンは、完全な関係構造から学習できるだけでなく、より大きなデータベースサイズまで拡張できる。
全体として、この方向は、現在テキストや画像でしか利用できないリレーショナルデータベースの基盤モデルに繋がる可能性があると論じる。
論文 参考訳(メタデータ) (2023-05-24T16:37:35Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Embeddings for Tabular Data: A Survey [8.010589283146222]
タブラルデータは、同じ列(属性)のセットを持つ行(サンプル)を含む
テーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。
新しい研究の行は、様々なデータベースタスクをサポートするために様々な学習技術を適用している。
論文 参考訳(メタデータ) (2023-02-23T04:37:49Z) - A Case for Business Process-Specific Foundation Models [6.25118865553438]
ビジネスプロセスデータ表現には,新たな基盤モデルの開発を保証できるユニークな特徴がある,と我々は主張する。
これらのモデルは、データ不足、マルチモーダル表現、ドメイン固有の用語、プライバシに関する懸念を含む、ビジネスプロセスにAIを適用するというユニークな課題に取り組む必要がある。
論文 参考訳(メタデータ) (2022-10-26T14:17:47Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。