Fugu-MT 論文翻訳(概要): Towards Memory-Efficient Training for Extremely Large Output Spaces -- Learning with 500k Labels on a Single Commodity GPU

論文の概要: Towards Memory-Efficient Training for Extremely Large Output Spaces -- Learning with 500k Labels on a Single Commodity GPU

arxiv url: http://arxiv.org/abs/2306.03725v1
Date: Tue, 6 Jun 2023 14:44:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 15:04:55.604544
Title: Towards Memory-Efficient Training for Extremely Large Output Spaces -- Learning with 500k Labels on a Single Commodity GPU
Title（参考訳）: 極大出力空間のメモリ効率向上に向けて -単一コモディティGPUを用いた500kラベルの学習-
Authors: Erik Schultheis, Rohit Babbar
Abstract要約: 巨大な出力空間(数百万ラベルまで)の分類問題では、最後の層は膨大な量のメモリを必要とする。スパース接続を使用することで、メモリ要求が大幅に削減されるが、モデルの性能が大幅に低下する可能性がある。提案手法は,わずか4GBのGPU上で670,000ラベルのデータセットにスケール可能であることを示す。
参考スコア（独自算出の注目度）: 2.3224617218247134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In classification problems with large output spaces (up to millions of labels), the last layer can require an enormous amount of memory. Using sparse connectivity would drastically reduce the memory requirements, but as we show below, it can result in much diminished predictive performance of the model. Fortunately, we found that this can be mitigated by introducing a penultimate layer of intermediate size. We further demonstrate that one can constrain the connectivity of the sparse layer to be uniform, in the sense that each output neuron will have the exact same number of incoming connections. This allows for efficient implementations of sparse matrix multiplication and connection redistribution on GPU hardware. Via a custom CUDA implementation, we show that the proposed approach can scale to datasets with 670,000 labels on a single commodity GPU with only 4GB memory.
Abstract（参考訳）: 大きな出力空間(数百万のラベルまで)を持つ分類問題では、最後の層は膨大なメモリを必要とする。スパース接続を使用することでメモリ要件が大幅に削減されるが、以下に示すように、モデル予測性能が大幅に低下する可能性がある。幸いなことに、中間サイズのペナルティメート層を導入することで、これを緩和できることがわかった。さらに、各出力ニューロンが全く同じ数の入ってくる接続数を持つという意味で、スパース層の接続性を均一に制限できることを実証する。これにより、スパース行列乗算の効率的な実装とGPUハードウェアへの接続再配布が可能になる。カスタムCUDAの実装により、提案手法は4GBのメモリしか持たない単一のコモディティGPU上で670,000ラベルのデータセットにスケール可能であることを示す。

関連論文リスト

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文参考訳（メタデータ） (2026-02-02T13:52:40Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。 CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文参考訳（メタデータ） (2024-11-13T20:30:15Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文参考訳（メタデータ） (2024-09-18T11:57:05Z)
Practical offloading for fine-tuning LLM on commodity GPU via learned subspace projectors [11.938205508966808]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP_Offload を提案する。
論文参考訳（メタデータ） (2024-06-14T16:59:11Z)
Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文参考訳（メタデータ） (2022-02-19T03:49:21Z)
MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文参考訳（メタデータ） (2021-10-28T17:58:45Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文参考訳（メタデータ） (2021-04-09T16:43:11Z)
Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文参考訳（メタデータ） (2020-12-14T13:12:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。