論文の概要: The Tensor Data Platform: Towards an AI-centric Database System
- arxiv url: http://arxiv.org/abs/2211.02753v1
- Date: Fri, 4 Nov 2022 21:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 13:25:16.222718
- Title: The Tensor Data Platform: Towards an AI-centric Database System
- Title(参考訳): Tensor Data Platform: AI中心のデータベースシステムを目指して
- Authors: Apurva Gandhi, Yuki Asada, Victor Fu, Advitya Gemawat, Lihao Zhang,
Rathijit Sen, Carlo Curino, Jes\'us Camacho-Rodr\'iguez, Matteo Interlandi
- Abstract要約: AIでも同じことをする時が来た、と私たちは主張します -- しかし、ツイストで!
真のAI中心のデータベースを実現するには、エンジンをリレーショナルからテンソル抽象化に移行する必要がある、と私たちは主張しています。
これにより,(1)画像,ビデオ,音声,テキスト,リレーショナルなどのマルチモーダルデータ処理,(2)HWにおけるイノベーションの豊かさ,(3)自動微分を利用してタスクを実行する「訓練可能な」クエリの新たなクラスを実現する。
- 参考スコア(独自算出の注目度): 6.519203713828565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Database engines have historically absorbed many of the innovations in data
processing, adding features to process graph data, XML, object oriented, and
text among many others. In this paper, we make the case that it is time to do
the same for AI -- but with a twist! While existing approaches have tried to
achieve this by integrating databases with external ML tools, in this paper we
claim that achieving a truly AI-centric database requires moving the DBMS
engine, at its core, from a relational to a tensor abstraction. This allows us
to: (1) support multi-modal data processing such as images, videos, audio, text
as well as relational; (2) leverage the wellspring of innovation in HW and
runtimes for tensor computation; and (3) exploit automatic differentiation to
enable a novel class of "trainable" queries that can learn to perform a task.
To support the above scenarios, we introduce TDP: a system that builds upon
our prior work mapping relational queries to tensors. Thanks to a tighter
integration with the tensor runtime, TDP is able to provide a broader coverage
of new emerging scenarios requiring access to multi-modal data and automatic
differentiation.
- Abstract(参考訳): データベースエンジンは歴史的にデータ処理の多くの革新を吸収し、グラフデータ、XML、オブジェクト指向、テキストなどの処理に機能を追加してきた。
この論文では、AIでも同じことをする時が来たとしますが、ツイストで!
既存のアプローチでは、データベースを外部のMLツールと統合することでこれを実現しようとしていますが、本論文では、真にAI中心のデータベースを実現するには、DBMSエンジンのコアをリレーショナルからテンソル抽象化に移行する必要があります。
これにより、(1)画像、ビデオ、音声、テキストなどのマルチモーダルデータ処理をサポートし、(2)hwとランタイムにおけるイノベーションの長所を活用し、(3)自動微分を利用してタスクの実行を学習できる新しいタイプの「訓練可能な」クエリを可能にする。
上記のシナリオをサポートするため、私たちはTDPを紹介します。これは、従来の作業マッピングクエリをテンソルにマッピングするシステムです。
テンソルランタイムとの緊密な統合により、TDPは、マルチモーダルデータへのアクセスと自動微分を必要とする新しいシナリオの広範なカバレッジを提供することができる。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Saturn: An Optimized Data System for Large Model Deep Learning Workloads [6.377812618046872]
SPASEに取り組む: 並列性を選択し、リソースをアロケートし、スケジューリングする。
本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。
また,MILPソルバの直接使用は,複数のベースラインよりも有意に有効であることがわかった。
論文 参考訳(メタデータ) (2023-09-03T17:19:11Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。