論文の概要: Loop Neural Networks for Parameter Sharing
- arxiv url: http://arxiv.org/abs/2409.14199v3
- Date: Fri, 08 Nov 2024 15:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:29.078133
- Title: Loop Neural Networks for Parameter Sharing
- Title(参考訳): パラメータ共有のためのループニューラルネットワーク
- Authors: Kei-Sing Ng, Qingchen Wang,
- Abstract要約: 本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。
提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。
本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
- 参考スコア(独自算出の注目度): 1.1049608786515839
- License:
- Abstract: The success of large-scale language models like GPT can be attributed to their ability to efficiently predict the next token in a sequence. However, these models rely on constant computational effort regardless of the complexity of the token they are predicting, lacking the capacity for iterative refinement. In this paper, we introduce a novel Loop Neural Network, which achieves better performance by utilizing longer computational time without increasing the model size. Our approach revisits the input multiple times, refining the prediction by iteratively looping over a subset of the model with residual connections. We demonstrate the effectiveness of this method through experiments comparing versions of GPT-2 with our loop models, showing improved performance in language modeling tasks while maintaining similar parameter counts. Importantly, these improvements are achieved without the need for extra training data.
- Abstract(参考訳): GPTのような大規模言語モデルの成功は、シーケンス内の次のトークンを効率的に予測できる能力に起因する。
しかし、これらのモデルは、予測しているトークンの複雑さに関わらず、一定の計算努力に依存しており、反復的精錬の能力は欠如している。
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。
提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。
本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
重要なのは、これらの改善は、追加のトレーニングデータを必要としないことだ。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Enhancing Transformer RNNs with Multiple Temporal Perspectives [18.884124657093405]
本稿では、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである、複数時間視点の概念を紹介する。
この方法は、以前遭遇したテキストの多様な時間的ビューを維持することを含み、コンテキストを解釈する言語モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-02-04T22:12:29Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Surprisal-Triggered Conditional Computation with Neural Networks [19.55737970532817]
自己回帰ニューラルネットワークモデルは、シーケンス生成、特徴抽出、仮説スコアリングに成功している。
本稿では,これらのモデルに対して,より複雑な入力により多くの計算を割り当てる,という新たな利用法を提案する。
論文 参考訳(メタデータ) (2020-06-02T14:34:24Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。