論文の概要: When are 1.58 bits enough? A Bottom-up Exploration of BitNet Quantization
- arxiv url: http://arxiv.org/abs/2411.05882v1
- Date: Fri, 08 Nov 2024 07:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:00.699484
- Title: When are 1.58 bits enough? A Bottom-up Exploration of BitNet Quantization
- Title(参考訳): 1.58ビットはいつ十分か? BitNet量子化のボトムアップ探索
- Authors: Jacob Nielsen, Lukas Galke, Peter Schneider-Kamp,
- Abstract要約: ここでは,デコーダのみの言語モデルを3次重み付き競争状態(1.58ビット/重み)にトレーニング可能であることを示す。
その結果,1.58ビットのトレーニングは標準の32/16ビットモデルと同等か,場合によっては同等であることがわかった。
- 参考スコア(独自算出の注目度): 5.67099529296254
- License:
- Abstract: Contemporary machine learning models, such as language models, are powerful, but come with immense resource requirements both at training and inference time. It has been shown that decoder-only language models can be trained to a competitive state with ternary weights (1.58 bits per weight), facilitating efficient inference. Here, we start our exploration with non-transformer model architectures, investigating 1.58-bit training for multi-layer perceptrons and graph neural networks. Then, we explore 1.58-bit training in other transformer-based language models, namely encoder-only and encoder-decoder models. Our results show that in all of these settings, 1.58-bit training is on par with or sometimes even better than the standard 32/16-bit models.
- Abstract(参考訳): 言語モデルのような現代の機械学習モデルは強力だが、トレーニングと推論時間の両方で膨大なリソース要件が伴う。
デコーダのみの言語モデルは、3次重み (1.58ビット/重み) を持つ競合状態にトレーニングでき、効率的な推論を容易にすることが示されている。
ここでは、マルチ層パーセプトロンとグラフニューラルネットワークのための1.58ビットのトレーニングについて、非トランスフォーマーモデルアーキテクチャによる探索を開始する。
次に、他のトランスフォーマーベース言語モデル、すなわちエンコーダオンリーおよびエンコーダデコーダモデルにおける1.58ビットのトレーニングについて検討する。
以上の結果から,1.58ビットのトレーニングは標準の32/16ビットモデルと同等か,場合によっては同等であることがわかった。
関連論文リスト
- Scaling Laws of Decoder-Only Models on the Multilingual Machine Translation Task [1.9107347888374506]
マルチ言語およびマルチドメイン翻訳タスクにおけるデコーダのみのモデルのスケーリング法則について検討する。
大規模言語モデルで発見されたようなスケーリング法則を用いて,デコーダのみのモデルの損失を推定できることを示す。
また、モデルの深さと幅のスケーリングは、同様のテスト損失の改善をもたらすが、モデルの効率に異なる影響を与えることを示す。
論文 参考訳(メタデータ) (2024-09-23T14:26:01Z) - BitNet b1.58 Reloaded: State-of-the-art Performance Also on Smaller Networks [2.2300270962881075]
本研究では,100Kから48Mパラメータの小さな言語と視覚モデルに対する1.58ビットの量子化について検討する。
我々は、量子化プロセスにおける平均よりも中央値に依存するビットネットb1.58の変種を導入する。
論文 参考訳(メタデータ) (2024-06-24T20:55:36Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - A Study on Transformer Configuration and Training Objective [33.7272660870026]
マスク付きオートエンコーダトレーニングにおいて,より深く狭いトランスフォーマー構成を用いるBambooを提案する。
ImageNetでは、そのような単純な構成変更により、再設計されたモデルは87.1%のトップ-1精度を達成する。
言語タスクでは、再設計されたモデルがBERTより優れ、デフォルト設定は平均1.1ポイント向上する。
論文 参考訳(メタデータ) (2022-05-21T05:17:11Z) - OPT: Open Pre-trained Transformer Language Models [99.60254017109551]
125Mから175Bのパラメータからなるデコーダのみの事前学習トランスであるOpen Pre-trained Transformers (OPT)を提案する。
OPT-175BはGPT-3に匹敵するが, 炭素フットプリントの1/7しか必要としない。
論文 参考訳(メタデータ) (2022-05-02T17:49:50Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Very Deep Transformers for Neural Machine Translation [100.51465892354234]
最大60のエンコーダ層と12のデコーダ層を持つ標準のTransformerベースのモデルを構築することが可能であることを示す。
これらのディープモデルは、ベースラインの6層モデルよりも2.5BLEUを上回っている。
論文 参考訳(メタデータ) (2020-08-18T07:14:54Z) - Attention Is All You Need [36.87735219227719]
本稿では,アテンション機構のみに基づく新しいシンプルなネットワークアーキテクチャであるTransformerを提案する。
2つの機械翻訳タスクの実験は、これらのモデルの品質が優れていることを示している。
論文 参考訳(メタデータ) (2017-06-12T17:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。