Fugu-MT 論文翻訳(概要): Differentiable Random Access Memory using Lattices

論文の概要: Differentiable Random Access Memory using Lattices

arxiv url: http://arxiv.org/abs/2107.03474v1
Date: Wed, 7 Jul 2021 20:55:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-09 21:27:02.802589
Title: Differentiable Random Access Memory using Lattices
Title（参考訳）: 格子を用いた可変ランダムアクセスメモリ
Authors: Adam P. Goucher, Rajan Troll
Abstract要約: サイズに関係なく$O(1)$の異なるランダムアクセスメモリモジュールを導入する。設計は選択された格子の点にエントリを格納し、対称性を利用して任意の点の最も近い近傍を効率的に計算する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a differentiable random access memory module with $O(1)$ performance regardless of size, scaling to billions of entries. The design stores entries on points of a chosen lattice to calculate nearest neighbours of arbitrary points efficiently by exploiting symmetries. Augmenting a standard neural network architecture with a single memory layer based on this, we can scale the parameter count up to memory limits with negligible computational overhead, giving better accuracy at similar cost. On large language modelling tasks, these enhanced models with larger capacity significantly outperform the unmodified transformer baseline. We found continued scaling with memory size up to the limits tested.
Abstract（参考訳）: サイズに関係なく、数十億のエントリにスケールする、$O(1)$パフォーマンスを持つ可変ランダムアクセスメモリモジュールを導入する。設計は選択された格子の点にエントリを格納し、対称性を利用して任意の点の最も近い近傍を効率的に計算する。これに基づいて、単一のメモリ層で標準的なニューラルネットワークアーキテクチャを拡張すれば、計算オーバーヘッドを無視できるメモリ制限までパラメータ数をスケールでき、同等のコストで精度が向上します。大きな言語モデリングタスクでは、これらの拡張モデルは、変更されていないトランスフォーマーベースラインを大幅に上回っている。テスト対象の限界までメモリサイズを拡大し続けることが分かりました。

関連論文リスト

Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Ultra-Sparse Memory Network [8.927205198458994]
この研究はUltraMemを導入し、これらの制限に対処するために大規模な超スパースメモリ層を組み込んだ。提案手法は,与えられた計算予算内で,最先端の推論速度とモデル性能を実現する。
論文参考訳（メタデータ） (2024-11-19T09:24:34Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。 2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文参考訳（メタデータ） (2024-04-11T15:27:22Z)
SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers [29.721162097790646]
SPARTANは、エッジデバイスのためのパラメータ効率(PE)と計算的に高速なアーキテクチャである。トランスフォーマー層の後、階層的に整理されたスパースメモリを追加する。数ショット設定で34%高速にトレーニングでき、アダプタの0.9ポイント以内で実行することができる。
論文参考訳（メタデータ） (2022-11-29T23:59:20Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Experimentally realized memristive memory augmented neural network [0.0]
デバイス上での生涯学習は、マシンインテリジェンスにとって重要な課題だ。メモリ拡張ニューラルネットワークは目標を達成するために提案されているが、メモリモジュールはオフチップメモリに保存されなければならない。メモリ全体の拡張ニューラルネットワークアーキテクチャを,完全に統合されたメムリシティブなクロスバープラットフォームに実装する。
論文参考訳（メタデータ） (2022-04-15T11:52:30Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
Kanerva++: extending The Kanerva Machine with differentiable, locally block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文参考訳（メタデータ） (2021-02-20T18:40:40Z)
CNN with large memory layers [2.368995563245609]
この作業は、最近提案された製品キーメモリ構造であるcitelarge_Memoryを中心に、多くのコンピュータビジョンアプリケーションに実装されている。メモリ構造は、ほぼすべてのニューラルネットワークアーキテクチャに拡張されるのに適した単純な計算プリミティブと見なすことができる。
論文参考訳（メタデータ） (2021-01-27T20:58:20Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。