論文の概要: An Overview of the Data-Loader Landscape: Comparative Performance
Analysis
- arxiv url: http://arxiv.org/abs/2209.13705v1
- Date: Tue, 27 Sep 2022 21:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:37:13.901060
- Title: An Overview of the Data-Loader Landscape: Comparative Performance
Analysis
- Title(参考訳): データローダのランドスケープ : 比較性能分析
- Authors: Iason Ofeidis, Diego Kiedanski, Leandros Tassiulas
- Abstract要約: データローダは、トレーニングジョブのパフォーマンスを大幅に改善する鍵を握るかもしれません。
最近の進歩は、トレーニング時間を大幅に短縮するだけでなく、S3のようなリモートストレージからデータをロードするといった新機能を提供することによって、約束されている。
- 参考スコア(独自算出の注目度): 6.913175606212201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataloaders, in charge of moving data from storage into GPUs while training
machine learning models, might hold the key to drastically improving the
performance of training jobs. Recent advances have shown promise not only by
considerably decreasing training time but also by offering new features such as
loading data from remote storage like S3. In this paper, we are the first to
distinguish the dataloader as a separate component in the Deep Learning (DL)
workflow and to outline its structure and features. Finally, we offer a
comprehensive comparison of the different dataloading libraries available,
their trade-offs in terms of functionality, usability, and performance and the
insights derived from them.
- Abstract(参考訳): データローダは、機械学習モデルのトレーニング中にストレージからGPUへのデータ移動を担当し、トレーニングジョブのパフォーマンスを大幅に改善する鍵を握る可能性がある。
最近の進歩は、トレーニング時間を大幅に短縮するだけでなく、S3のようなリモートストレージからデータをロードするといった新機能を提供することによって、約束されている。
本稿では,データローダをDeep Learning(DL)ワークフローの独立したコンポーネントとして識別し,その構造と特徴を概説する。
最後に、利用可能なさまざまなデータローディングライブラリの包括的な比較、機能、ユーザビリティ、パフォーマンス、およびそれらに由来する洞察のトレードオフを提供します。
関連論文リスト
- A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving [84.22159537581742]
職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point
Prompt Training [47.036695270944946]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Understand Data Preprocessing for Effective End-to-End Training of Deep
Neural Networks [8.977436072381973]
生データと記録ファイルのどちらを用いた2つの主要なデータ前処理手法の性能評価実験を行った。
我々は、潜在的な原因を特定し、様々な最適化方法を実行し、その長所と短所を提示する。
論文 参考訳(メタデータ) (2023-04-18T11:57:38Z) - Profiling and Improving the PyTorch Dataloader for high-latency Storage:
A Technical Report [0.7349727826230862]
この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。
画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。
新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
論文 参考訳(メタデータ) (2022-11-09T14:16:30Z) - A Data-Based Perspective on Transfer Learning [76.30206800557411]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。
我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文 参考訳(メタデータ) (2022-07-12T17:58:28Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - COLA: COarse LAbel pre-training for 3D semantic segmentation of sparse
LiDAR datasets [3.8243923744440926]
転送学習は、2次元コンピュータビジョンにおいて、利用可能な大量のデータを活用し、高い性能を達成するための実証された技術である。
本研究では,スパース自動運転LiDARスキャンのリアルタイムな3次元セマンティックセマンティックセマンティックセグメンテーションを実現する。
我々は,COLA(Coarse label pre-training)と呼ばれる新しい事前訓練タスクを導入する。
論文 参考訳(メタデータ) (2022-02-14T17:19:23Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。