Fugu-MT 論文翻訳(概要): An Overview of the Data-Loader Landscape: Comparative Performance Analysis

論文の概要: An Overview of the Data-Loader Landscape: Comparative Performance Analysis

arxiv url: http://arxiv.org/abs/2209.13705v1
Date: Tue, 27 Sep 2022 21:40:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 16:37:13.901060
Title: An Overview of the Data-Loader Landscape: Comparative Performance Analysis
Title（参考訳）: データローダのランドスケープ : 比較性能分析
Authors: Iason Ofeidis, Diego Kiedanski, Leandros Tassiulas
Abstract要約: データローダは、トレーニングジョブのパフォーマンスを大幅に改善する鍵を握るかもしれません。最近の進歩は、トレーニング時間を大幅に短縮するだけでなく、S3のようなリモートストレージからデータをロードするといった新機能を提供することによって、約束されている。
参考スコア（独自算出の注目度）: 6.913175606212201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dataloaders, in charge of moving data from storage into GPUs while training machine learning models, might hold the key to drastically improving the performance of training jobs. Recent advances have shown promise not only by considerably decreasing training time but also by offering new features such as loading data from remote storage like S3. In this paper, we are the first to distinguish the dataloader as a separate component in the Deep Learning (DL) workflow and to outline its structure and features. Finally, we offer a comprehensive comparison of the different dataloading libraries available, their trade-offs in terms of functionality, usability, and performance and the insights derived from them.
Abstract（参考訳）: データローダは、機械学習モデルのトレーニング中にストレージからGPUへのデータ移動を担当し、トレーニングジョブのパフォーマンスを大幅に改善する鍵を握る可能性がある。最近の進歩は、トレーニング時間を大幅に短縮するだけでなく、S3のようなリモートストレージからデータをロードするといった新機能を提供することによって、約束されている。本稿では,データローダをDeep Learning(DL)ワークフローの独立したコンポーネントとして識別し,その構造と特徴を概説する。最後に、利用可能なさまざまなデータローディングライブラリの包括的な比較、機能、ユーザビリティ、パフォーマンス、およびそれらに由来する洞察のトレードオフを提供します。

関連論文リスト

OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training [17.215899004049778]
産業レベルの分散データロードアーキテクチャであるOVERLORDを3つのイノベーションで紹介する。 OVERLORDは、(1)エンドツーエンドのトレーニングスループットの改善、(2)CPUメモリ使用量の最低3.6倍の削減を実現している。
論文参考訳（メタデータ） (2025-04-14T03:31:22Z)
OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [35.40320275366383]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文参考訳（メタデータ） (2024-07-30T12:02:58Z)
Augment Before Copy-Paste: Data and Memory Efficiency-Oriented Instance Segmentation Framework for Sport-scenes [7.765333471208582]
Visual Inductive Priors Challenge (VIPriors2023)では、参加者はバスケットボールコートで個人を正確に特定できるモデルを訓練しなければならない。本稿では,視覚的インダクティブな前流伝搬に基づくメモリ効率インスタンスフレームワークを提案する。実験では、限られたデータとメモリの制約の下でも、我々のモデルを有望な性能を示す。
論文参考訳（メタデータ） (2024-03-18T08:44:40Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文参考訳（メタデータ） (2023-11-03T17:29:46Z)
SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文参考訳（メタデータ） (2023-09-19T11:13:01Z)
Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-18T17:59:57Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Profiling and Improving the PyTorch Dataloader for high-latency Storage: A Technical Report [0.7349727826230862]
この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
論文参考訳（メタデータ） (2022-11-09T14:16:30Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。