論文の概要: Table2Vec: Automated Universal Representation Learning to Encode
All-round Data DNA for Benchmarkable and Explainable Enterprise Data Science
- arxiv url: http://arxiv.org/abs/2112.01830v1
- Date: Fri, 3 Dec 2021 10:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:07:23.536250
- Title: Table2Vec: Automated Universal Representation Learning to Encode
All-round Data DNA for Benchmarkable and Explainable Enterprise Data Science
- Title(参考訳): Table2Vec: ベンチマーク可能で説明可能なエンタープライズデータサイエンスのための全データDNAをエンコードするUniversal Representation Learningの自動学習
- Authors: Longbing Cao and Chengzhang Zhu
- Abstract要約: 本稿では,顧客などのエンティティの自動普遍的表現学習のためのニューラルエンコーダTable2Vecを紹介する。
学習された普遍的な表現は、代表的でベンチマーク可能なエンタープライズデータゲノムとして機能する。
Table2Vecは、エンタープライズ分析で一般的に使用される、浅く、強化され、深層学習の手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 34.18823199125134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprise data typically involves multiple heterogeneous data sources and
external data that respectively record business activities, transactions,
customer demographics, status, behaviors, interactions and communications with
the enterprise, and the consumption and feedback of its products, services,
production, marketing, operations, and management, etc. A critical challenge in
enterprise data science is to enable an effective whole-of-enterprise data
understanding and data-driven discovery and decision-making on all-round
enterprise DNA. We introduce a neural encoder Table2Vec for automated universal
representation learning of entities such as customers from all-round enterprise
DNA with automated data characteristics analysis and data quality augmentation.
The learned universal representations serve as representative and benchmarkable
enterprise data genomes and can be used for enterprise-wide and domain-specific
learning tasks. Table2Vec integrates automated universal representation
learning on low-quality enterprise data and downstream learning tasks. We
illustrate Table2Vec in characterizing all-round customer data DNA in an
enterprise on complex heterogeneous multi-relational big tables to build
universal customer vector representations. The learned universal representation
of each customer is all-round, representative and benchmarkable to support both
enterprise-wide and domain-specific learning goals and tasks in enterprise data
science. Table2Vec significantly outperforms the existing shallow, boosting and
deep learning methods typically used for enterprise analytics. We further
discuss the research opportunities, directions and applications of automated
universal enterprise representation and learning and the learned enterprise
data DNA for automated, all-purpose, whole-of-enterprise and ethical machine
learning and data science.
- Abstract(参考訳): エンタープライズデータは通常、ビジネス活動、トランザクション、顧客人口統計、ステータス、行動、企業とのインタラクションとコミュニケーションをそれぞれ記録する複数の異種データソースと外部データと、製品、サービス、生産、マーケティング、運用、管理などの消費とフィードバックを含む。
エンタープライズデータサイエンスにおける重要な課題は、企業全体のデータ理解とデータドリブンな発見と決定を可能にすることである。
本研究では,全単位のエンタープライズDNAから顧客などのエンティティを,自動データ特性解析とデータ品質向上により普遍的に学習するためのニューラルネットワークTable2Vecを提案する。
学習されたユニバーサル表現は、代表的でベンチマーク可能なエンタープライズデータゲノムとして機能し、企業全体およびドメイン固有の学習タスクに使用できる。
Table2Vecは、低品質のエンタープライズデータと下流学習タスクに、自動化された普遍的表現学習を統合する。
そこで,Table2Vecは複雑な異種多関係大テーブル上に企業内の全包の顧客データDNAを特徴付け,汎用的な顧客ベクトル表現を構築する。
学習された各顧客の普遍的な表現は、企業全体およびドメイン固有の学習目標と、エンタープライズデータサイエンスにおけるタスクをサポートするために、全体的、代表的、およびベンチマーク可能である。
Table2Vecは、エンタープライズ分析で一般的に使用される、浅く、強化され、深層学習の手法を大幅に上回っている。
さらに、自動化された普遍的エンタープライズ表現と学習の機会、方向性、応用、および、自動化された全目的、全企業的、倫理的機械学習およびデータサイエンスのための学習されたエンタープライズデータDNAについて論じる。
関連論文リスト
- AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [45.0447118979891]
AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。
データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。
AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
論文 参考訳(メタデータ) (2024-10-27T12:44:25Z) - Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [130.87142103774752]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。
高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。
また、解決を保障する科学的、技術的課題も検討している。
論文 参考訳(メタデータ) (2023-12-06T10:46:53Z) - Semantic Modelling of Organizational Knowledge as a Basis for Enterprise
Data Governance 4.0 -- Application to a Unified Clinical Data Model [6.302916372143144]
メタデータ駆動、アジャイル、および(半自動化された)データガバナンスを可能にする、シンプルでコスト効率のよいフレームワークを確立します。
本稿では,25年間の臨床研究データを企業規模で完全に生産的な環境で統合するために,このフレームワークの実装と利用について説明する。
論文 参考訳(メタデータ) (2023-10-20T19:36:03Z) - CASPR: Customer Activity Sequence-based Prediction and Representation [2.0668471963669606]
本稿では、顧客の取引を、顧客とビジネスの関係の一般的な表現にエンコードする新しいアプローチを提案する。
次に、様々なアプリケーションにまたがる複数のモデルをトレーニングする機能として、これらの埋め込みを評価します。
我々の大規模な実験は、小規模および大規模エンタープライズアプリケーションの両方にCASPRを検証します。
論文 参考訳(メタデータ) (2022-11-16T19:46:31Z) - Straggler-Resilient Personalized Federated Learning [55.54344312542944]
フェデレーション学習は、プライバシと通信の制限を尊重しながら、クライアントの大規模なネットワークに分散されたサンプルからのトレーニングモデルを可能にする。
これら2つのハードルを同時に処理する理論的なスピードアップを保証する新しいアルゴリズム手法を開発した。
提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。
論文 参考訳(メタデータ) (2022-06-05T01:14:46Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - Improving Company Valuations with Automated Knowledge Discovery,
Extraction and Fusion [0.15293427903448023]
本稿では, 自動知識発見, 抽出, およびデータ融合を用いて, 新たな指標を得る方法について述べる。
本研究では,プロプライエタリな検索インタフェースの裏側に隠された臨床試験のデータを同定し,収集するために,深層Web知識取得手法を適用した。
論文 参考訳(メタデータ) (2020-10-19T06:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。