論文の概要: You Do Not Need a Bigger Boat: Recommendations at Reasonable Scale in a
(Mostly) Serverless and Open Stack
- arxiv url: http://arxiv.org/abs/2107.07346v1
- Date: Thu, 15 Jul 2021 14:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:57:30.272005
- Title: You Do Not Need a Bigger Boat: Recommendations at Reasonable Scale in a
(Mostly) Serverless and Open Stack
- Title(参考訳): 大きなボートは必要ない:(最も)サーバレスでオープンなスタックでの推論可能なスケールでの推奨
- Authors: Jacopo Tagliabue
- Abstract要約: 未成熟なデータパイプラインは、業界の実践者の多くが推奨システムに関する最新の研究を活用するのを妨げている、と私たちは主張する。
我々は、機械学習のためのテンプレートデータスタックを「合理的なスケール」で提案し、サーバーレスのパラダイムを受け入れることで、いかに多くの課題が解決されるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We argue that immature data pipelines are preventing a large portion of
industry practitioners from leveraging the latest research on recommender
systems. We propose our template data stack for machine learning at "reasonable
scale", and show how many challenges are solved by embracing a serverless
paradigm. Leveraging our experience, we detail how modern open source can
provide a pipeline processing terabytes of data with limited infrastructure
work.
- Abstract(参考訳): 未成熟なデータパイプラインは、業界の実践者の多くが推奨システムに関する最新の研究を活用するのを妨げている、と私たちは主張する。
我々は、機械学習のためのテンプレートデータスタックを「合理的なスケール」で提案し、サーバーレスパラダイムを採用することで、いかに多くの課題が解決されるかを示す。
私たちの経験を生かして、現代的なオープンソースが、限られたインフラストラクチャ作業でテラバイト単位のデータを処理するパイプラインをいかに提供できるかを詳細に説明します。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Bauplan: zero-copy, scale-up FaaS for data pipelines [4.6797109107617105]
bauplanは、データ実践者向けに設計された、新しいFプログラミングモデルとサーバレスランタイムである。
bauplanを使用することで、ユーザはランタイム環境とともに、機能的なDAG(Directed Acyclic Graphs)を宣言的に定義することができる。
汎用性を減らし、データ認識を優先することで、バプランのパフォーマンスが向上し、データワークロードの開発者エクスペリエンスも向上していることを示す。
論文 参考訳(メタデータ) (2024-10-22T22:49:01Z) - Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie [5.259526087073711]
我々はNessieと共にクラウドランタイムを活用することにより、計算とデータ管理を分離するように設計されたシステムを導入する。
オブジェクトストレージ上にタイムトラベラとブランチのセマンティクスを提供する機能を示し、CLIコマンドで完全なパイプラインを提供する。
論文 参考訳(メタデータ) (2024-04-21T14:53:33Z) - Solving Data Quality Problems with Desbordante: a Demo [35.75243108496634]
Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。
産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。
このデモでは、エンドユーザがさまざまなデータ品質問題を解決できるいくつかのシナリオを紹介します。
論文 参考訳(メタデータ) (2023-07-27T15:26:26Z) - Desbordante: from benchmarking suite to high-performance
science-intensive data profiler (preprint) [36.537985747809245]
Desbordanteは、オープンソースのコードを持つ高性能な科学集約型データプロファイラである。
類似のシステムとは異なり、マルチユーザ環境での産業的応用に重点を置いて構築されている。
効率的で、クラッシュに対して回復力があり、スケーラブルです。
論文 参考訳(メタデータ) (2023-01-14T19:14:51Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。