論文の概要: From Projection to Prediction: Beyond Logits for Scalable Language Models
- arxiv url: http://arxiv.org/abs/2511.17599v1
- Date: Tue, 18 Nov 2025 02:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.279835
- Title: From Projection to Prediction: Beyond Logits for Scalable Language Models
- Title(参考訳): 予測から予測へ - スケーラブル言語モデルのロジットを超えて
- Authors: Jianbing Dong, Jianbin Chang,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングは通常、出力層で2段階のパイプラインを伴います。
隠れ状態とターゲットトークンの損失を直接計算することにより、当社のアプローチは明示的なロジットの実体化をバイパスする。
- 参考スコア(独自算出の注目度): 0.28647133890966986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Large Language Models (LLMs) typically involves a two-stage pipeline at the output layer: hidden states are projected into vocabulary logits via a linear transformation (lm_head), followed by cross-entropy loss computation against target tokens. While conceptually simple, this design incurs substantial overhead. The intermediate logits tensor, with dimensions proportional to batch size, sequence length, and vocabulary size, must be fully materialized in GPU memory, even though only one target token per position is ultimately used. This leads to significant memory footprint and bandwidth comsumption, limiting scalability and slowing training throughput. In this work, we introduce a novel approach to integrates the output projection and loss prediction into a single operation. By directly computing the loss from hidden states and target tokens, our approach bypasses explicit logits materialization. This design reduces memory usage and alleviates bandwidth pressure. Experiments on LLM training demonstrate that our method achieves substantial memory savings and measurable speedups compared to the standard two-stage pipeline, enabling large batch sizes and longer sequences without sacrificing accuracy. Our work highlights the benefits of rethinking the boundary between projection and prediction, offering a practical systems optimization for efficient LLM training.
- Abstract(参考訳): 隠れ状態は線形変換(lm_head)を介して語彙ロジットに投影され、続いてターゲットトークンに対するクロスエントロピー損失計算が行われる。
概念的には単純だが、この設計にはかなりのオーバーヘッドが伴う。
中間ロジットテンソルは、バッチサイズ、シーケンス長、ボキャブラリサイズに比例する寸法を持ち、最終的に1位置当たりのターゲットトークンが1つしか使われていないにもかかわらず、GPUメモリで完全に実体化されなければならない。
これにより、メモリフットプリントと帯域幅の消費が大幅に増加し、スケーラビリティが制限され、トレーニングのスループットが低下する。
本研究では,出力予測と損失予測をひとつの操作に統合する新しい手法を提案する。
隠れ状態とターゲットトークンの損失を直接計算することにより、当社のアプローチは明示的なロジットの実体化をバイパスする。
この設計はメモリ使用量を減らし、帯域幅の圧力を軽減する。
LLMトレーニング実験により,本手法は標準的な2段パイプラインと比較してメモリ節約と測定可能な高速化を実現し,精度を犠牲にすることなく大規模なバッチサイズと長いシーケンスを実現できることを示した。
本研究は,予測と予測の境界を再考することの利点を強調し,効率的なLLM学習のための実用的なシステム最適化を提供する。
関連論文リスト
- DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。
CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文 参考訳(メタデータ) (2024-11-13T20:30:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。