Fugu-MT 論文翻訳(概要): FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation

論文の概要: FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation

arxiv url: http://arxiv.org/abs/2407.07093v1
Date: Tue, 9 Jul 2024 17:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 16:57:59.100616
Title: FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation
Title（参考訳）: FBI-LLM: 自己回帰蒸留によるスクラッチからの完全二元化LDMのスケールアップ
Authors: Liqun Ma, Mingjie Sun, Zhiqiang Shen,
Abstract要約: この研究は、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。大規模なバイナリ言語モデルをスクラッチからトレーニングする方法を初めて示すものだ。
参考スコア（独自算出の注目度）: 32.01836613286288
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work presents a Fully BInarized Large Language Model (FBI-LLM), demonstrating for the first time how to train a large-scale binary language model from scratch (not the partial binary or ternary LLM like BitNet b1.58) to match the performance of its full-precision counterparts (e.g., FP16 or BF16) in transformer-based LLMs. It achieves this by employing an autoregressive distillation (AD) loss with maintaining equivalent model dimensions (130M, 1.3B, 7B) and training data volume as regular LLM pretraining, while delivering competitive results in terms of perplexity and task-specific effectiveness. Intriguingly, by analyzing the training trajectory, we find that the pretrained weight is not necessary for training binarized LLMs from scratch. This research encourages a new computational framework and may facilitate the future design of specialized hardware tailored for fully 1-bit LLMs. We make all models, code, and training dataset fully accessible and transparent to support further research (Code: https://github.com/LiqunMa/FBI-LLM. Model: https://huggingface.co/LiqunMa/).
Abstract（参考訳）: この研究は、大規模なバイナリ言語モデルをスクラッチ(BitNet b1.58のような部分バイナリや3次LLMではなく)からトレーニングして、トランスフォーマーベースのLLMで、その完全な精度(例えば、FP16やBF16)のパフォーマンスを満足する方法を初めて示す、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。自己回帰蒸留(AD)損失を利用して、等価なモデル次元(130M, 1.3B, 7B)を維持し、トレーニングデータ量を通常のLLMプレトレーニングとして利用し、複雑度とタスク固有の有効性の観点から競争結果を提供する。興味深いことに、トレーニング軌跡を解析することにより、二項化LDMをスクラッチからトレーニングするために、事前訓練した重量は必要ないことが判明した。この研究は、新しい計算フレームワークを奨励し、完全な1ビットLLMに適した特別なハードウェアの設計を後押しする可能性がある。すべてのモデル、コード、トレーニングデータセットを完全にアクセス可能で透明にし、さらなる研究をサポートする(コード: https://github.com/LiqunMa/FBI-LLM. Model: https://huggingface.co/LiqunMa/)。

関連論文リスト

GPT Carry-On: Training Foundation Model for Customization Could Be Simple, Scalable and Affordable [1.79487674052027]
既存の大規模言語基盤モデル(LLM)の利点をフル活用するためのフレームワークを提案する。予め訓練されたLLMを最終層に埋め込んだ上で,トランスフォーマーブロックの追加ブランチをトレーニングし,その後,キャリーオンモジュールがベースモデルをマージして,カスタマイズされたLLMを構成する。ベースモデルはパラメータを更新する必要がないため、推論ノード上でトレーニングジョブのほとんどの計算をアウトソースすることが可能です。
論文参考訳（メタデータ） (2025-04-10T07:15:40Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
The Future of Large Language Model Pre-training is Federated [15.237418036900582]
我々は,LLM事前学習のための新しいトレーニングパラダイムの調査と開発を可能にする,Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。数十億のパラメータを持つLCMを事前学習するために、プライベートデータソースと計算資源とのコラボレーションに関心のある組織がPhotonを利用できることを示す。さらに,モデルサイズによるフェデレーショントレーニング尺度の有効性を示すとともに,限られた資源を用いて数十億規模のフェデレーションLLMをトレーニングするためのアプローチを提案する。
論文参考訳（メタデータ） (2024-05-17T15:27:52Z)
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。 1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文参考訳（メタデータ） (2024-02-27T18:56:19Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework [10.656788279434798]
本稿では,大規模事前学習に依存しない,シンプルで効率的な学習フレームワーク TLM を提案する。 4つの領域の8つの分類データセットにおいて、TLMは事前訓練された言語モデルよりも良い結果が得られる。
論文参考訳（メタデータ） (2021-11-07T17:13:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。