論文の概要: RINAS: Training with Dataset Shuffling Can Be General and Fast
- arxiv url: http://arxiv.org/abs/2312.02368v1
- Date: Mon, 4 Dec 2023 21:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:26:57.728557
- Title: RINAS: Training with Dataset Shuffling Can Be General and Fast
- Title(参考訳): RINAS:データセットシャッフルによるトレーニングは一般的で高速
- Authors: Tianle Zhong, Jiechen Zhao, Xindi Guo, Qiang Su, Geoffrey Fox
- Abstract要約: RINASは、グローバルシャッフルデータセットをロードする際のパフォーマンスボトルネックに対処するデータローディングフレームワークである。
We implement RINAS under the PyTorch framework for common dataset library HuggingFace and TorchVision。
実験の結果,RINASは汎用言語モデルトレーニングと視覚モデルトレーニングのスループットを最大59%,視力モデルトレーニングは89%向上した。
- 参考スコア(独自算出の注目度): 2.485503195398027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning datasets are expanding at an unprecedented pace, creating new
challenges for data processing in model training pipelines. A crucial aspect of
these pipelines is dataset shuffling, which significantly improves unbiased
learning and convergence accuracy by adhering to the principles of random
sampling. However, loading shuffled data for large datasets incurs significant
overhead in the deep learning pipeline and severely impacts the end-to-end
training throughput. To mitigate this, current deep learning systems often
resort to partial dataset shuffling, sacrificing global randomness to maintain
acceptable training throughput on large datasets, still leaving global
shuffling efficiency issues not fully explored.
In this work, we present RINAS, a data loading framework that systematically
addresses the performance bottleneck of loading global shuffled datasets. Our
key contribution is to offer an intra-batch unordered data fetching approach,
which unleashes unexplored parallelism of data loading. We implement RINAS
under the PyTorch framework for common dataset libraries HuggingFace and
TorchVision. Our experimental results show that RINAS improves the throughput
of general language model training and vision model training by up to 59% and
89%, respectively.
- Abstract(参考訳): ディープラーニングデータセットは前例のないペースで拡大し、モデルトレーニングパイプラインにおけるデータ処理の新たな課題を生み出している。
これらのパイプラインの重要な側面は、ランダムサンプリングの原則に固執することで、偏りのない学習と収束精度を大幅に改善するデータセットシャッフルである。
しかし、大きなデータセットにシャッフルデータをロードすると、ディープラーニングパイプラインの大幅なオーバーヘッドが発生し、エンドツーエンドのトレーニングスループットに大きな影響を与える。
これを軽減するために、現在のディープラーニングシステムは、大きなデータセットで許容可能なトレーニングスループットを維持するために、グローバルランダム性を犠牲にして、部分データセットのシャッフルに頼ることが多い。
本稿では,グローバルシャッフルデータセットのロードにおけるパフォーマンスボトルネックを体系的に解決するデータローディングフレームワークであるrinasを提案する。
私たちの重要な貢献は、データローディングの未探索並列性を解き放つ、バッチ内の未順序データフェッチアプローチを提供することです。
私たちは、一般的なデータセットライブラリhughingfaceとtorchvision用のpytorchフレームワークでrinasを実装しています。
実験の結果,RINASは汎用言語モデルトレーニングと視覚モデルトレーニングのスループットを最大59%,視力モデルトレーニングは89%向上した。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Deep learning-based shot-domain seismic deblending [1.6411821807321063]
我々は,各帆行の最後に獲得した未完成のショットコレクションを利用する。
これらのデータを手動でブレンドすることで、地上の真実をうまく制御したトレーニングデータが得られる。
隣接するブレンドショット集合を含むマルチチャネル入力を用いてディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2024-09-13T07:32:31Z) - Long-Tailed Recognition on Binary Networks by Calibrating A Pre-trained Model [18.58663937035378]
高リソース効率のバイナリニューラルネットワークをバックボーンとして使用することで、長い尾の分布を学習するという課題に対処する。
そこで本研究では,バランスの取れたデータセットでトレーニングされた既訓練完全精度モデルを用いて,蒸留の教師として使用するキャリブレート・アンド・ディスティルフレームワークを提案する。
種々のデータセットをより一般化するために,目的関数の項間の新たな対角バランスと,効率的な多分解能学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-30T08:37:19Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Data Selection for Efficient Model Update in Federated Learning [0.07614628596146598]
本稿では,グローバルモデルのトレーニングに必要なローカルデータの量を削減することを提案する。
本手法では, 局所データの特徴により敏感な部分と, 一般特徴抽出のための下位部分と, 上位部分とにモデルを分割する。
実験の結果,クライアントデータの特徴をグローバルモデルに転送できる地域データは1%未満であることがわかった。
論文 参考訳(メタデータ) (2021-11-05T14:07:06Z) - A Data-Centric Approach for Training Deep Neural Networks with Less Data [1.9014535120129343]
本稿では,データ中心AI(Data-Centric AI)コンペへの優勝申請を要約する。
小さなデータセットでトレーニング中に発生する課題について論じる。
本稿では,新しいデータポイントを合成するためのGANベースのソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-07T16:41:52Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。