論文の概要、ライセンス

# (参考訳) GroupBERT: 効率的なグループ構造を持つ拡張トランスフォーマーアーキテクチャ [全文訳有]

GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures ( http://arxiv.org/abs/2106.05822v1 )

ライセンス: CC BY-SA 4.0
Ivan Chelombiev, Daniel Justus, Douglas Orr, Anastasia Dietrich, Frithjof Gressmann, Alexandros Koliousis, Carlo Luschi(参考訳) 注意に基づく言語モデルは最先端自然言語処理システムにおいて重要な要素となっている。 しかし、これらのモデルには、長い訓練時間、厳密な演算、大きなパラメータ数のために、かなりの計算要求がある。 本研究では,トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。 まず、自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。 第二に,モデル表現性を維持しつつ,密なフィードフォワード層と畳み込みの計算コストを削減するために群変換に依存する。 得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。 さらに,浮動小数点演算(FLOP)と時間・ツー・トレインの両面で,効率の向上を強調した。

Attention based language models have become a critical component in state-of-the-art natural language processing systems. However, these models have significant computational requirements, due to long training times, dense operations and large parameter count. In this work we demonstrate a set of modifications to the structure of a Transformer layer, producing a more efficient architecture. First, we add a convolutional module to complement the self-attention module, decoupling the learning of local and global interactions. Secondly, we rely on grouped transformations to reduce the computational cost of dense feed-forward layers and convolutions, while preserving the expressivity of the model. We apply the resulting architecture to language representation learning and demonstrate its superior performance compared to BERT models of different scales. We further highlight its improved efficiency, both in terms of floating-point operations (FLOPs) and time-to-train.
公開日: Thu, 10 Jun 2021 15:41:53 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] L C . s c [ 0 1 ]LC。 sc [ 0.60
1 v 2 2 8 5 0 1 v 2 2 8 5 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
GroupBERT: Enhanced Transformer Architecture GroupBERT: 拡張トランスフォーマーアーキテクチャ 0.71
with Efficient Grouped Structures 効率的なグループ構造で 0.77
Ivan Chelombiev ∗ Graphcore Research Ivan Chelombiev ∗ Graphcore Research 0.85
ivanc@graphcore.ai ivanc@graphcore.ai 0.78
Daniel Justus ∗ Graphcore Research Daniel Justus ∗ Graphcore Research 0.85
danielj@graphcore.ai danielj@graphcore.ai 0.78
Douglas Orr ∗ Douglas Orr ∗ 0.85
Graphcore Research douglaso@graphcore.a i グラフコア研究 douglaso@graphcore.a i 0.75
Anastasia Dietrich Graphcore Research アナスタシア・ディートリッヒグラフコア研究 0.60
anastasiad@graphcore .ai anastasiad@graphcore .ai 0.78
Frithjof Gressmann Graphcore Research Frithjof Gressmann Graphcore Research 0.85
frithjof@graphcore.a i frithjof@graphcore.a i 0.78
Alexandros Koliousis† アレクサンドロス・コリシシシュ 0.60
New College of the Humanities alexandros.koliousis @nchlondon.ac.uk 新人文科学大学 alexandros.koliousis @nchlondon.ac.uk 0.53
Carlo Luschi カルロ・ルシ(Carlo Luschi) 0.35
Graphcore Research carlo@graphcore.ai グラフコア研究 carlo@graphcore.ai 0.75
Abstract Attention based language models have become a critical component in state-of-theart natural language processing systems. 概要 注意に基づく言語モデルは、最先端自然言語処理システムにおいて重要な要素となっている。 0.54
However, these models have significant computational requirements, due to long training times, dense operations and large parameter count. しかし、これらのモデルには、長い訓練時間、厳密な演算、大きなパラメータ数のために、かなりの計算要求がある。 0.58
In this work we demonstrate a set of modifications to the structure of a Transformer layer, producing a more efficient architecture. 本研究では,トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
訳抜け防止モード: この作業では、Transformer層の構造に対する一連の変更を実演する。 より効率的な建築を生み出します
0.73
First, we add a convolutional module to complement the self-attention module, decoupling the learning of local and global interactions. まず、自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。 0.76
Secondly, we rely on grouped transformations to reduce the computational cost of dense feed-forward layers and convolutions, while preserving the expressivity of the model. 第二に,モデル表現性を維持しつつ,密なフィードフォワード層と畳み込みの計算コストを削減するために群変換に依存する。 0.78
We apply the resulting architecture to language representation learning and demonstrate its superior performance compared to BERT models of different scales. 得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。 0.76
We further highlight its improved efficiency, both in terms of floating-point operations (FLOPs) and time-to-train. さらに,浮動小数点演算(FLOP)と時間・ツー・トレインの両面で,効率の向上を強調した。 0.58
1 Introduction Deep neural networks have emerged as the leading solution to enabling end-to-end language processing (Hochreiter & Schmidhuber, 1997; Sutskever et al , 2014; Chung et al , 2014). 1 はじめに ディープニューラルネットワークは、エンドツーエンドの言語処理を可能にする主要なソリューションとして登場した(Hochreiter & Schmidhuber, 1997; Sutskever et al , 2014; Chung et al , 2014)。 0.72
Recently, the Transformer model based on the self-attention mechanism (Vaswani et al , 2017) has become the most promising architecture for language applications (Devlin et al , 2018; Radford et al , 2019; Brown et al , 2020). 最近、自己注意機構に基づくTransformerモデル(Vaswani et al , 2017)は、言語アプリケーションにとって最も有望なアーキテクチャとなっている(Devlin et al , 2018; Radford et al , 2019; Brown et al , 2020)。 0.84
Attention based models are also increasingly showing promising results for established applications in domains different from natural language processing (Dosovitskiy et al , 2020). 注意に基づくモデルもまた、自然言語処理とは異なるドメインにおける確立されたアプリケーションに対して有望な結果を示している(dosovitskiy et al , 2020)。 0.70
Complementary to the Transformer’s improved ability to model long-range dependencies in sequences is its superior potential to scale to larger sizes (Kaplan et al , 2020) and its suitability for execution on existing accelerators. Transformerの、シーケンス内の長距離依存関係をモデル化する能力の改善は、より大きなサイズ(Kaplan et al , 2020)にスケールする上で優れた可能性であり、既存のアクセラレータ上での実行に適している。
訳抜け防止モード: Transformerの改良機能への補完 to model long- range dependencies in sequences より大きなサイズにスケールする可能性が優れている(Kaplan et al, 2020)。 既存のアクセラレータ上での実行に適している。
0.76
This makes these models favoured over traditional recurrent language models. これにより、これらのモデルは従来のリカレント言語モデルよりも好まれる。 0.56
Given the increased computational demand of these models, there is a growing and pressing interest to develop more efficient architectures (Strubell et al , 2019). これらのモデルの計算需要の増加を踏まえ、より効率的なアーキテクチャを開発することへの関心が高まっている(Strubell et al , 2019)。 0.78
Some previous proposals were able to ∗Equal contribution. 以前の提案では 等しく貢献する。 0.58
†Work done while at Graphcore. Graphcoreでの作業は完了した。 0.59
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
reduce the computational burden of the Transformer with improved task performance, but often with a corresponding slower execution, as will be discussed further in Section 2. 第2節でさらに述べるように、トランスの計算負荷を削減し、タスクパフォーマンスを向上させるが、実行速度を遅くすることが多い。 0.77
While these models might not have passed the Hardware Lottery filter (Hooker, 2020), in this work we leverage Graphcore’s Intelligence Processing Unit (IPU) (Jia et al , 2019), which has allowed us to examine a wide variety of techniques, centered around improving computational efficiency. これらのモデルは、ハードウェアの宝くじフィルタ(hooker, 2020)を満たしていないかもしれないが、この作業では、graphcoreのintelligent processing unit(ipu)(jia et al , 2019)を活用して、計算効率の向上を中心とした、幅広い技術を調べることができました。 0.73
We demonstrate a set of modifications to the the structure of the Transformer layer that improve FLOP utilization by the encoder stack. 我々は、エンコーダスタックによるフロップ利用を改善するトランスフォーマー層の構造変更のセットを示す。 0.64
The proposed GroupBERT model relies on grouped matrix multiplications and convolutions, and delivers a more efficient version of the BERT architecture, superior in both task performance and computation efficiency. 提案したGroupBERTモデルは、グループ化された行列乗算と畳み込みに依存し、タスク性能と計算効率の両方に優れたBERTアーキテクチャのより効率的なバージョンを提供する。 0.75
These efficient building blocks have a reduced computational load for a given memory access (Masters et al , 2021). これらの効率的なビルディングブロックは、与えられたメモリアクセス(masters et al, 2021)に対する計算負荷を削減できる。 0.76
This property would make them undesirable for traditional accelerators, which rely on large dense computations and reduced memory access. この特性は、大きな高密度計算とメモリアクセスの削減に依存する従来のアクセラレーターには望ましくない。 0.69
However, the IPU hardware architecture uses on-chip SRAM for model execution, which opens up the possibility of using more efficient computation blocks that would be discarded by users of hardware with smaller memory bandwidth. しかし、IPUハードウェアアーキテクチャはモデル実行にオンチップSRAMを使用するため、より効率的な計算ブロックを使用することで、メモリ帯域幅の少ないハードウェアのユーザによって破棄される可能性がある。 0.73
We achieve a performance boost by extending each Transformer layer to contain four modules: one multi-head attention (MHA), one grouped convolution module, and two grouped feed-forward modules (GFFN). 1つのマルチヘッドアテンション(MHA)、1つのグループ化された畳み込みモジュール、2つのグループ化されたフィードフォワードモジュール(GFFN)である。
訳抜け防止モード: 各トランスフォーマー層を4つのモジュールを含むように拡張することで、性能向上を実現する。 1つのグループ化畳み込みモジュールと2つのグループ化フィード - フォワードモジュール(gffn)。
0.75
The MHA and grouped convolution modules process token information along the sequence dimension, and each is followed by the general computation GFFN module. MHAおよびグループ畳み込みモジュールは、シーケンス次元に沿ってトークン情報を処理し、それぞれに一般的な計算GFFNモジュールが続く。 0.84
While there are twice as many modules in the proposed GroupBERT layer, the overall increase in computation is modest as we utilize sparse grouped operations, for a total FLOP increase of about 60%. 提案したGroupBERT層には2倍のモジュールがあるが、スパース群演算を利用すると計算の全体的な増加は控えめであり、FLOPの総増加率は約60%である。 0.78
Not only does GroupBERT deliver better performance per FLOP, but it is also executed faster as measured in total time-to-train. GroupBERTはFLOP当たりのパフォーマンスを向上するだけでなく、全タイム・トゥ・トレインで測定されるほど高速に実行される。 0.63
By employing both attention and convolution, the model has components dedicated to both short and long-range interactions, making a more efficient use of the more expensive attention mechanism. 注意と畳み込みの両方を使用することで、モデルは短距離と長距離の両方の相互作用に特化したコンポーネントを持ち、より高価な注意メカニズムをより効率的に利用することができる。 0.60
We also utilize the parameters of GroupBERT more efficiently during training, by discarding dropout for pre-training on a large corpus of text and by improving stability to use higher learning rates. また,大規模なテキストコーパスによる事前学習のためのドロップアウトを廃止し,高い学習率を利用するための安定性の向上によって,GroupBERTのパラメータをより効率的に活用する。 0.69
With all these innovations, GroupBERT Base is only slightly larger than BERT Base, yet it achieves better validation MLM loss than BERT Large using less than half of its FLOPs. これらすべての革新により、GroupBERT BaseはBERT Baseよりわずかに大きいが、FLOPの半分以下でBERT Largeより優れた検証MLM損失を達成している。 0.65
2 Related Work Grouped transformations have been prevalent in Convolutional Neural Networks (CNN), initially used for their parameter efficiency, starting with Alexnet (Krizhevsky et al , 2012). 2 関連作業 グループ変換は、Alexnet (Krizhevsky et al , 2012) を皮切りに、当初はパラメータ効率に使用された畳み込みニューラルネットワーク(CNN)で普及している。 0.78
They have been further popularized by the ResNeXt architecture (Xie et al , 2017). ResNeXtアーキテクチャ(Xie et al , 2017)によってさらに普及している。 0.63
More recent CNN architectures implement depthwise separable convolutions, which are a special case of grouped convolutions with group size equal to one (Howard et al , 2017; Tan & Le, 2019). より最近のCNNアーキテクチャでは、グループサイズが1に等しいグループ化された畳み込み(Howard et al , 2017; Tan & Le, 2019)の特殊なケースとして、深く分離可能な畳み込みを実装している。 0.62
In addition to being beneficial for resource utilization, the use of grouped transformation was found to be particularly well suited to convolutional neural network architectures (Ioannou et al , 2017). 資源利用に有益であることに加えて、グループ化変換の使用は畳み込みニューラルネットワークアーキテクチャ(ioannou et al , 2017)に特に適していることが判明した。 0.74
In language modelling, modern attention based architectures utilize most of their non-embedding parameters in dense operations, thus driving up the computational requirements of these models. 言語モデリングにおいて、現代の注意に基づくアーキテクチャは、密接な操作においてそれらの非埋め込みパラメータのほとんどを利用するため、これらのモデルの計算要件を増大させる。 0.57
Some studies have already considered the use of grouped operations in Transformer-XL (Dai et al , 2019): DeLighT (Mehta et al , 2021) and DeFINE (Mehta et al , 2020) use cascades of grouped transformations in the encoder and the embedding, respectively, to lower the computational load of the Transformer. Transformer-XL (Dai et al , 2019): DeLighT (Mehta et al , 2021) と DeFINE (Mehta et al , 2020) は、それぞれエンコーダと埋め込みにおけるグループ変換のカスケードを使用して、Transformerの計算負荷を低減している。 0.63
While sophisticated, these methods do not provide a compelling acceleration for the model execution. 洗練された手法だが、これらの手法はモデル実行に説得力のある加速度を与えない。 0.49
On the contrary, SqueezeBERT (Iandola et al , 2020) replaces almost all dense multiplications with grouped transformations in a Transformer layer. それとは対照的に、SqueezeBERT (Iandola et al , 2020) はほとんど全ての密な乗法をトランスフォーマー層内の群変換に置き換える。 0.72
This approach shows a significant speedup, but loses too much task performance if pre-trained without distillation from a dense parent model (Hinton et al , 2015). このアプローチは大きなスピードアップを示すが、高密度の親モデルからの蒸留なしで事前訓練した場合にはタスク性能が低下する(Hinton et al , 2015)。 0.68
In this work, we present a more balanced implementation of grouped transformations, delivering both performance and speed. 本稿では,グループ化トランスフォーメーションをよりバランスよく実装し,パフォーマンスと速度を両立させる。 0.67
The Transformer model was initially introduced as a parallelizable solution for supervised sequence-tosequence learning in the field of natural language processing. トランスフォーマーモデルは当初、自然言語処理の分野で教師付きシーケンス列学習のための並列化ソリューションとして導入された。 0.68
These models have become ubiquitous with the use of self-supervised approaches (Devlin et al , 2018; Radford et al , 2019). これらのモデルは、自己管理アプローチ(Devlin et al , 2018; Radford et al , 2019)を使用することで、ユビキタスになった。 0.74
While attention based models have superior performance due to their ability to model long-range interactions, this characteristic is also what makes the attention mechanism costly. 注意に基づくモデルは、長距離相互作用をモデル化する能力により優れた性能を持つが、この特徴は注意機構を高価にしている。 0.72
Many studies have succesfully managed to make the attention mechanism more efficient (Tay et al , 2020; Fournier et al , 2021). 多くの研究が注意機構をより効率的にするために成功している(Tay et al , 2020; Fournier et al , 2021)。 0.82
However, its general use across the model can be redundant, as some attention heads in practice しかし、実際に注意が向けられているため、モデル全体での一般的な使用は冗長である可能性がある。 0.57
2 2 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Schematic representations outlining the difference between GroupBERT and BERT structures. 図1: GroupBERT と BERT 構造の違いを概説するスキーマ表現。 0.76
A single GroupBERT layer has double the number of modules. 1つのGroupBERT層はモジュール数を2倍にする。 0.79
reduce to convolutions to model local interactions (Cordonnier et al , 2020) and duplicate other attention heads, making them redundant (Michel et al , 2019). 局所的な相互作用をモデル化するための畳み込み(Cordonnier et al , 2020)と他の注意ヘッドの重複を減らし、それらを冗長にする(Michel et al , 2019)。 0.68
Using convolutions directly inside a Transformer has been shown to make attention more focused on long-range interactions, thus enabling more of its capacity to be used for that specific purpose (Wu et al , 2019b; Jiang et al , 2020; Wu et al , 2020). 変圧器内で直接畳み込みを使用することで、長距離の相互作用がより注目されるようになり、その特定の目的のためにその容量をより多く使用できるようになった(wu et al , 2019b; jiang et al , 2020; wu et al , 2020)。
訳抜け防止モード: Transformer内で直接畳み込みを使用する 長い範囲の相互作用にもっと注目することが示されている。 これにより、その特定の目的のためにより多くの能力を使用することができる(Wu et al, 2019b ; Jiang et al, 2020 ; Wu et al)。 2020 ) .
0.81
While the incorporation of convolutions in Transformers was previously investigated only for smaller models with no more than 100M parameters, we look at scaling to a much wider range of model sizes, from 30M to 500M parameters. 変圧器の畳み込みは,従来,100m未満の小型モデルに対してのみ検討されていたが,30mから500mまで,より広い範囲のモデルサイズへの拡張を検討した。 0.75
3 Architecture In this work, we propose an efficient modification of the Transformer layer called GroupBERT. 3 建築 本稿では,GroupBERTと呼ばれるTransformer層を効率よく修正する手法を提案する。 0.77
The original Transformer layer consists of two modules: multi-head attention (MHA) and feed-forward network (FFN). オリジナルのトランスフォーマー層は、マルチヘッドアテンション(mha)とフィードフォワードネットワーク(ffn)の2つのモジュールで構成されている。
訳抜け防止モード: オリジナルのTransformer層は2つのモジュールから構成されている。 フィード - フォワードネットワーク(FFN)。
0.68
Each of these modules also includes dropout, a shortcut connection, and layer normalization (Srivastava et al , 2014; He et al , 2016; Ba et al , 2016). これらのモジュールには、ドロップアウト、ショートカット接続、レイヤー正規化も含まれている(Srivastava et al , 2014; He et al , 2016; Ba et al , 2016)。 0.85
GroupBERT includes four modules in every layer, as illustrated in Figure 1. GroupBERTは図1に示すように、各レイヤに4つのモジュールが含まれている。 0.68
We add a convolution module in sequence with the MHA to efficiently model local interactions between tokens and to allow the attention mechanism to focus on long-range interactions. トークン間の局所的な相互作用を効率的にモデル化し、注意機構が長距離相互作用に集中できるように、mhaと連続して畳み込みモジュールを追加する。 0.65
We then complement every sequence processing block with a dedicated fully-connected module. そして、全てのシーケンス処理ブロックを専用の完全接続モジュールで補完する。 0.78
For better efficiency, we introduce grouped projections to the FLOPs intensive FFN module, making the layer structure more FLOP efficient. 効率を向上させるため、フロップス集中型ffnモジュールにグループ投影を導入することで、層構造をより効率良くする。
訳抜け防止モード: 効率を向上させるため、FLOPs集中型FFNモジュールにグループプロジェクションを導入する。 層構造をよりFLOP効率良くする。
0.79
3.1 Convolution Block 3.1 畳み込みブロック 0.66
Sequential locality plays an important role for contextualizing tokens in language models. 逐次的局所性は、言語モデルにおけるトークンのコンテキスト化において重要な役割を果たす。 0.53
At the same time, long-range interactions have proven to be vital for state-of-the-art performance. 同時に、長距離相互作用は最先端のパフォーマンスに不可欠であることが証明されている。 0.54
Transformers inherently support long-range content-based interactions via self-attention and usually incorporate a form of positional encoding, allowing attention to also capture position-based interactions (Dai et al , 2019). トランスフォーマーは本質的に、自己注意を通じて長距離コンテンツベースのインタラクションをサポートし、通常は位置エンコーディングの形式を取り入れ、位置ベースのインタラクションをキャプチャする(Dai et al , 2019)。
訳抜け防止モード: 変圧器は自己注意による長距離コンテンツに基づく対話を本質的に支援する 通常は位置エンコーディングを組み込んでいます 位置を捉えられるようにも注意を払っている(Dai et al, 2019)。
0.58
Although this gives self-attention strong representational power, a convolution is a more efficient implementation of strictly local, position-based fusion. これは自己注意力の強い表現力を与えるが、畳み込みは厳密な局所的位置ベース融合のより効率的な実装である。 0.57
For this reason we adopt a dedicated convolutional module to improve overall efficiency. このため、全体的な効率を改善するために専用の畳み込みモジュールを採用しました。 0.55
The design of our convolution module is similar to Gulati et al (2020), in which convolutions were introduced into a speech recognition Transformer. 我々の畳み込みモジュールの設計は、畳み込みを音声認識トランスフォーマーに導入したgulati et al (2020) に類似している。 0.66
We apply a gate consisting of a pointwise convolution followed by a Gated Linear Unit (GLU) that has been beneficial in language applications (Dauphin et al , 2017; Wu et al , 2019a, 2020). 我々は,言語応用に有効なGLU(Gated Linear Unit, GLU)に次いで,ポイントワイズ畳み込みからなるゲートを適用した(Dauphin et al , 2017; Wu et al , 2019a, 2020)。 0.87
Unlike Gulati et al (2020), we use grouped convolutions in place of depthwise convolutions to add representational capacity. Gulati et al (2020) とは異なり、我々は表現能力を高めるために、深く畳み込んだ畳み込みの代わりにグループ化された畳み込みを使用する。 0.48
We find that the best trade-off between task performance and computational cost is achieved by using a grouped convolution with タスク性能と計算コストの最良のトレードオフは、グループ化された畳み込みを用いて達成される。 0.66
3 3 0.85
英語(論文から抽出)日本語訳スコア
(a) (b) Figure 2: Attention maps of a single head from the first MHA module of BERT Base (a) and Base + Conv (b) (Section 4.5), averaged over 103 validation sequences to show the sequential locality preference of a typical attention head (see Appendix C for all heads). (a) (b) 図2: BERT Base (a) と Base + Conv (b) (Section 4.5) の最初の MHA モジュールからの1つのヘッドのアテンションマップは、典型的なアテンションヘッドのシーケンシャルな局所性嗜好を示すために103以上の検証シーケンスを平均化した(全ヘッドの Appendix C を参照)。 0.82
Each row corresponds to a query token position, each column to a key position. 各行はクエリトークンの位置に対応し、各列はキー位置に対応する。 0.81
Adding the convolution module encourages attention layers to learn long-range content-based interactions over short-range position-based interactions. 畳み込みモジュールを追加することで、注意層は短距離位置ベースインタラクションを介して長距離コンテンツベースのインタラクションを学ぶことができる。
訳抜け防止モード: コンボリューションモジュールの追加は注意層を促進する to learn long - range content - based interaction over short - range position - based interaction。
0.61
group size 16 and kernel size 7, computed over the sequence dimension. グループサイズ16とカーネルサイズ7は、シーケンス次元上で計算される。 0.81
The module also includes an additional layer normalization and a Swish activation (Ramachandran et al , 2017). モジュールには追加のレイヤ正規化とswiishアクティベーション(ramachandran et al , 2017)も含まれている。 0.71
With this module included, fewer attention heads show a strong locality preference since such interactions are readily captured by convolutions. このモジュールを含めると、このような相互作用は畳み込みによって容易に捕捉されるので、注目の頭は強い局所性を好む。 0.53
This effect is visible in the attention maps of Figure 2, showing weaker locality in the model that includes convolutions. この効果は図2の注意図に見え、畳み込みを含むモデルにおけるより弱い局所性を示す。 0.74
To measure this effect quantitatively, we calculate the entropy across target positions for each head and source position. この効果を定量的に測定するために,各頭部と源位置の目標位置間のエントロピーを計算する。 0.77
We then average, and normalize by the maximum possible value (see Appendix C). 次に平均し、最大可能な値で正規化する(付録cを参照)。 0.71
For this measure, zero means that every head attends to a single position exclusively, while one means that every head is position agnostic, although there could still be a joint position and content term. この尺度では、ゼロは全ての頭部が1つの位置にのみ出席することを意味するが、一方、全ての頭部は位置非依存であることを意味する。
訳抜け防止モード: この測度では、ゼロはすべての頭部が1つの位置のみに付随することを意味する。 1つは 全ての頭は 位置を知らないが 共同位置と内容項がある
0.72
BERT Base has an average entropy ratio of 0.75 and BERT Base + Conv has 0.92, indicating a shift of positional fusion work from attention to convolution. BERTベースの平均エントロピー比は 0.75 であり、BERTベース+コンブは 0.92 であり、位置融合作業が注目から畳み込みへとシフトしていることを示している。 0.65
3.2 Grouped Feed-Forward Modules 3.2 グループフィードフォワードモジュール 0.77
The FFN module plays a crucial part in the unparalleled task performance of Transformers (Dong et al , 2021; Lee-Thorp et al , 2021). FFNモジュールはトランスフォーマー(Dong et al , 2021; Lee-Thorp et al , 2021)の非並列なタスクパフォーマンスにおいて重要な役割を果たす。 0.84
Although it is an essential complement to sequence processing modules it introduces a computational burden, since two thirds of the FLOPs are concentrated in the FFN module. シーケンス処理モジュールの本質的な補完であるが、フロップの3分の2がffnモジュールに集中しているため、計算上の負担が生じる。 0.69
To make it more lightweight we utilize structured sparsity in a form of sparsely grouped matrix multiplication. より軽量にするために、疎群化された行列の乗算という形で構造化スパーシティを利用する。
訳抜け防止モード: より軽量にするために 疎群行列乗算の形で構造化スパーシティを利用する。
0.66
Consider a dense matrix multiplication of matrices H ∈ Ra×b and W ∈ Rb×c: 行列 H ∈ Ra×b と W ∈ Rb×c の密度行列乗法を考える。 0.69
(HW)i,j =∆ (HW)i,j =! 0.82
hi,n · wn,j hi,n · wn,j 0.85
(1) b(cid:88) (1) b(cid:88) 0.85
n=1 A sparsely grouped version of W corresponds to a block diagonal matrix W(G) with G groups, a matrix of similar dimension to W and a sparsity ratio of 1/G. n=1 w の疎群化バージョンは、g群を持つブロック対角行列 w(g)、w に類似する次元の行列、1/g のスパーシティ比に対応する。 0.65
This reduces the number of stored parameters, and can be implemented efficiently without zero-multiplication as: これにより、格納されたパラメータの数を減らし、ゼロ重複なしで効率的に実装できる。 0.67
b(cid:88) b/G(cid:88) b(cid:88) b/G(cid:88) 0.75
(HW(G))i,j =∆ (HW(G))i,j =... 0.83
hi,n · wn,j = hi,n · wn,j = 0.85
n=1 n=1 h i, n + n=1 n=1 H i, n + 0.70
b G · (cid:98)j−1 / b G · (cid:98)j−1 / 0.82
G (cid:99) · w G (cid:99) · w 0.92
c n + b G · (cid:98)j−1 / c n + b G · (cid:98)j−1 / 0.83
c G (cid:99), j c G (cid:99), j 0.91
(2) An equivalent alternative formulation of a block-diagonal matrix is a grouped convolution for a 1-dimensional 1 × 1 convolution (Iandola et al , 2020). (2) ブロック対角行列の等価な定式化は、1次元 1 × 1 の畳み込み(andola et al , 2020)に対する群化された畳み込みである。 0.77
One of our findings is that parameters in the first of the two matricies of the FFN contribute more to task performance, and sparsity is particularly damaging for these fan-out matrices. この結果の1つは、FFNの2つのマトリクスのうち第1のパラメータがタスクパフォーマンスに寄与していることであり、スポーサリティはこれらのファンアウト行列に特に影響している。 0.66
The second matrix is less sensitive to parameter reduction due to the sparse input and the reduction of projection dimension. 第2の行列は、スパース入力と投影次元の縮小によりパラメータ低減に対する感度が低下する。 0.77
Therefore, introducing sparsity in the second matrix results in a Pareto efficient balance between compute and task-performance. したがって、第2の行列にスパーシティを導入することで、計算とタスクパフォーマンスの効率の良いバランスが得られる。 0.59
The locality constraint of grouped projections on the hidden dimension is detrimental to the model, but 隠れた次元上の群射影の局所性制約はモデルに有害であるが 0.73
4 4 0.85
英語(論文から抽出)日本語訳スコア
Figure 3: Postnorm (a) and Prenorm (b) module designs for Transformer layer Li. 図3: Transformer 層 Li に対する Postnorm (a) および Prenorm (b) モジュールの設計。 0.88
(a) (b) this is alleviated by using an output linear projection similar to the output projection matrix used in the MHA block. (a) (b) これは、MHAブロックで使用される出力投影行列と同様の出力線形射影を用いて緩和される。 0.84
We find the optimal value for the number of groups to be G = 4, bringing the parameter count of GFFN to be 75% of its dense counterpart. G = 4 となる群の数に対して最適値を求めると、GFFN のパラメータ数は、その密度の高い群の75%となる。 0.80
3.3 Efficient Parameter Utilization 3.3 効率的なパラメータ利用 0.62
In line with earlier research on the Transformer architecture (Wang et al , 2019; Liu et al , 2020; Xiong et al , 2020), we move layer normalization (Ba et al , 2016) from its position after the module’s residual ("postnorm", Figure 3a) to the first position within each residual block ("prenorm", Figure 3b). トランスフォーマーアーキテクチャに関する以前の研究(Wang et al , 2019; Liu et al , 2020; Xiong et al , 2020)に従って、モジュールの残余位置(postnorm, Figure 3a)から各残余ブロック内の第1位置(prenorm, Figure 3b)へ、レイヤ正規化(Ba et al , 2016)を移動させる。
訳抜け防止モード: Transformerアーキテクチャに関する以前の研究(Wang et al,)に沿う。 2019 ; Liu et al, 2020 ; Xiong et al, 2020 ) 我々は、モジュールの残余("postnorm")の後に、層正規化(Ba et al, 2016)をその位置から移動させる。 図 3a ) を各残余ブロック ( " prenorm" ) 内の最初の位置へ向ける。 図3b)。
0.83
While this modification does not directly improve task performance, it stabilizes training and allows the use of a larger learning rate that would otherwise trigger the model with postnorm to diverge. この修正はタスクパフォーマンスを直接改善するものではないが、トレーニングを安定させ、それ以外はpostnormが分岐するモデルを引き起こすような、より大きな学習率を使用することを可能にする。
訳抜け防止モード: この修正はタスクパフォーマンスを直接改善するものではないが、トレーニングを安定させる より大きな学習率で さもなければ ポストノームでモデルを 引き起こすことになる
0.76
We increase the learning rate by a factor of 4× compared to the postnorm baseline. 学習速度を4倍に向上させる。 0.26
Similarly to Lan et al (2020), we find the use of dropout to be detrimental to the pre-training stage. lan et al (2020) と同様に、dropout の使用は事前訓練段階に有害であることが判明した。 0.65
Due to the substantial size of the dataset, this kind of regularization is not required. データセットのかなりのサイズのため、この種の正規化は必要ない。 0.62
While removing dropout yields improvements to the pre-training loss, this does not apply to downstream tasks that rely on smaller datasets. ドロップアウトの削除はトレーニング前の損失を改善するが、より小さなデータセットに依存するダウンストリームタスクには適用されない。 0.66
Consequently, we include dropout only when fine-tuning on supervised tasks, that have smaller datasets than the pre-training corpus. したがって、事前トレーニングされたコーパスよりも小さなデータセットを持つ教師付きタスクの微調整時にのみドロップアウトを行う。 0.60
4 Results To evaluate the architecture modifications, we chose BERT (Devlin et al , 2018) pre-training and fine-tuning. 4結果 アーキテクチャの変更を評価するため、BERT (Devlin et al , 2018) の事前トレーニングと微調整を選択しました。 0.67
The large dataset and challenging training objective mean that task performance improves consistently with model size (Lan et al , 2020) and the risk of over-fitting is reduced. 大きなデータセットと挑戦的なトレーニング目標により、タスクパフォーマンスはモデルサイズ(Lan et al , 2020)と一貫して改善され、過剰適合のリスクが低減される。 0.68
This makes it possible to clearly distinguish architecture modifications that benefit efficiency. これにより、効率のよいアーキテクチャ変更を明確に区別することができる。 0.72
Our evaluation of GroupBERT for language representation learning shows that the architecture is: 言語表現学習のためのGroupBERTの評価では、アーキテクチャは以下のようになる。 0.67
1. Training FLOP-efficient across a range of model sizes (Sections 4.3, 4.4). 1. モデルサイズ(セクション4.3, 4.4)にわたるトレーニングのフロップ効率。 0.78
2. Training time-efficient across a range of compute budgets (Sections 4.3, 4.4). 2. 様々な計算予算(4.3,4.4)にわたるトレーニング時間効率。 0.79
3. Improved by each constituent part (Section 4.5). 3. 各構成部により改良(第4.5条)。 0.76
4.1 Experiments Each experiment consists of two pre-training phases and a fine-tuning phase consisting of multiple training runs, started from the pre-trained model. 4.1実験 各実験は2つの事前訓練フェーズと、事前訓練モデルから開始された複数のトレーニング実行からなる微調整フェーズで構成される。 0.69
All phases use the AdamW optimiser (Loshchilov & Hutter, 2019), with β1 = 0.9, β2 = 0.999,  = 10−6. 全ての位相は、AdamWオプティマイザ (Loshchilov & Hutter, 2019) を使用し、β1 = 0.9, β2 = 0.999, 0.77
The learning rate follows a linear warm-up decay schedule, whereby the warmup phase lasts for min(104, 0.1· total steps) steps, and the peak learning rate depends on the training phase and model size. 学習速度は線形ウォームアップ崩壊スケジュールに従い、ウォームアップフェーズはmin(104,0.1·トータルステップ)ステップで持続し、ピーク学習率はトレーニングフェーズとモデルサイズに依存する。 0.76
The model is defined over a vocabulary of 30,522 WordPiece tokens (Wu et al , 2016). モデルは30,522のWordPieceトークン(Wu et al , 2016)の語彙上で定義される。 0.82
Weights are initialized using a truncated normal distribution of standard deviation 0.02. 標準偏差0.02の切断正規分布を用いて重みを初期化する。 0.76
For all experiments we use 2 Graphcore M2000 IPU systems. すべての実験では、2つのGraphcore M2000 IPUシステムを使用します。 0.60
Pre-training phase one optimises the Masked Language Model (MLM) and Next-Sentence Prediction (NSP) loss for corrupted sentence pairs. 事前学習フェーズ1は、破損した文対に対するマスケッド言語モデル(MLM)とNext-Sentence Prediction(NSP)損失を最適化する。
訳抜け防止モード: 事前訓練フェーズ 1 は Masked Language Model (MLM) を最適化する and Next - Sentence Prediction (NSP) loss for corruptioned sentence pairs。
0.82
Masked and padded sequences of length 128 are grouped into batches of approximately 512 sequences, with slight variations depending on the model size (see Appendix A). マスキングおよびパディングされた長さ128の配列は、約512の配列のバッチにグループ化され、モデルサイズによって若干のバリエーションがある(付録aを参照)。 0.62
The model is trained for 10 epochs of Wikipedia + BookCorpus (Merity, 2016; Zhu et al , 2015), corresponding to approximately 8·105 optimisation steps. このモデルは、約8·105の最適化ステップに対応するwikipedia + bookcorpus (merity, 2016; zhu et al , 2015)の10エポックで訓練されている。 0.69
For all experiments with GroupBERT and the baseline BERT models, the learning rate is set to the largest value that maintains stable convergence. GroupBERTおよびベースラインBERTモデルを用いた全ての実験において、学習率は安定収束を維持する最大値に設定される。 0.84
Pre-training phase two uses sequence length 384, 5 epochs, and approximately 2·105 optimisation steps. プリトレーニングフェーズ2はシーケンス長384,5エポック,約2·105の最適化ステップを使用する。 0.64
5 5 0.85
英語(論文から抽出)日本語訳スコア
SQuAD 1.1 fine-tuning (Rajpurkar et al , 2016) adds a token span prediction layer and the whole model is fine-tuned to perform extractive question answering. SQuAD 1.1ファインチューニング(Rajpurkar et al , 2016)はトークンスパン予測層を追加し、モデル全体を微調整して抽出質問応答を行う。 0.73
Training uses target batch size 32 and we train for 2-3 epochs with various learning rates (Appendix B) and report results for the best hyperparameters setting. トレーニングにはターゲットバッチサイズ32を使用し、学習率の異なる2-3エポック(Appendix B)をトレーニングし、最適なハイパーパラメータ設定の結果を報告する。 0.70
We report F1 and Exact match scores, which show higher variance than MLM loss values. 我々は,MLM損失値よりも高いばらつきを示すF1とExact Matchスコアを報告する。 0.67
On the grounds of larger variance, we fine-tune each pre-training checkpoint five times using different seeds for every hyperparameter setting. 差分が大きい場合,各チェックポイントを5回,各ハイパーパラメータ設定毎に異なる種を用いて微調整する。 0.76
Fine-tuning has been shown to be quite a brittle process in recent studies (Dodge et al , 2020; Zhang et al , 2021; Mosbach et al , 2021). 近年の研究(dodge et al , 2020; zhang et al , 2021; mosbach et al , 2021)では微調整は非常に脆いプロセスであることが示されている。 0.79
In particular, many instabilities are caused by fine-tuning without using bias correction, an implementation that was adopted following the original experimental setup of BERT. 特に、多くの不安定性は、BERTの元々の実験的な設定に従って採用された実装であるバイアス補正を使わずに微調整によって引き起こされる。
訳抜け防止モード: 特に、多くの不安定は微調整によって引き起こされる。 BERTの元々の実験的な設定に従って採用された実装。
0.69
This omission in the optimizer was observed to cause a collapse of the training process. このオプティマイザの欠落はトレーニングプロセスの崩壊を引き起こすことが観察された。 0.63
For this reason, we included a bias-correction term to the AdamW implementation for fine-tuning. このため、微調整のためのAdamW実装にバイアス補正用語を組み込んだ。 0.61
4.2 Implementation We train all models on Graphcore Mk2 IPU clusters using a combination of pipeline model parallelism and data parallelism (Harlap et al , 2018). 4.2 実施 パイプラインモデル並列性とデータ並列性を組み合わせたグラフコアMk2 IPUクラスタ上で,すべてのモデルをトレーニングする(Harlap et al , 2018)。 0.65
To make efficient use of compute resources, we increase cluster size and pipeline depth based on model size (see Appendix A). 計算資源を効率的に利用するために、モデルサイズに基づいてクラスタサイズとパイプライン深さを増加させる(Appendix A参照)。 0.78
We maximise the “compute” batch size executed by each node to achieve maximum throughput, and choose the pipeline gradient accumulation count to achieve a target “global” batch size. 最大スループットを達成するために各ノードが実行する“計算”バッチサイズを最大化し、パイプライン勾配累積数を選択して、ターゲットの“グローバル”バッチサイズを達成する。 0.80
All parameters, activations, and optimiser states are stored and processed in IEEE 754 half-precision floating-point. すべてのパラメータ、アクティベーション、オプティマイザー状態はieee 754半精度浮動小数点に格納され、処理される。 0.62
This excludes the Adam weight update calculation and variance state, the loss calculation from logits and temporary variables that require higher precision. これはアダム重み更新計算と分散状態、ロジットからの損失計算、より高い精度を必要とする一時的な変数を除外する。
訳抜け防止モード: これはAdam重み更新計算と分散状態、損失計算をロジットから除外する 高い精度を必要とする一時的な変数も必要です
0.75
Higher precision temporary variables are used by layer normalization, softmax, and the accumulation of partial matrix multiplications. 高い精度の仮変数は、層正規化、ソフトマックス、部分行列乗算の蓄積によって用いられる。 0.66
Our models are implemented in TensorFlow and the code will be made publicly available. 私たちのモデルはTensorFlowで実装されており、コードは公開されます。 0.71
4.3 Pre-training BERT type models are notoriously difficult to evaluate as most of the computation is devoted to performing self-supervised pre-training on unlabeled corpora of text. 4.3 予習 BERT型モデルは、ほとんどの計算がラベルなしコーパスによる自己教師付き事前学習に費やされているため、評価が難しいことで知られている。 0.55
As this process is the most costly one, we are primarily interested in evaluating solely this part of the model training separately. このプロセスが最もコストがかかるので、モデルトレーニングのこの部分のみを別々に評価することに関心があります。 0.78
Taking example from other studies (Kaplan et al , 2020), we choose MLM loss on the validation dataset as the most salient criterion for task-performance as it captures language in its generality. 他の研究(Kaplan et al , 2020)を例に、検証データセット上でのMLM損失を、その一般性において言語を捉えたタスクパフォーマンスの最も健全な基準として選択する。 0.69
(a) (b) Figure 4: The model architecture is Pareto efficient. (a) (b) 図4: モデルアーキテクチャはParetoが効率的です。 0.84
(a) Mean MLM validation loss ± standard deviation of the GroupBERT and BERT model families plotted against the total pre-training FLOPs. (a)総合事前学習FLOPに対してプロットした GroupBERT モデルと BERT モデルの標準偏差の平均 MLM 検証損失 ±。 0.82
(b) Mean MLM validation loss ± standard deviation of the GroupBERT and BERT model families plotted against the total time for pre-training. b) GroupBERTおよびBERTモデルファミリーの標準偏差平均MLM検証損失±,事前学習の合計時間に対してプロットした。 0.74
6 SmallMediumBaseLarge Small+Medium+Base+Large+Improvedx 0.47MediumBaseLargeM edium+Base+Large+Improvedx 0.49 6 SmallMediumBaseLarge Small+Medium+Base+Improvedx 0.47MediumBaseLargeM edium+Base+Large+Improvedx 0.49 0.53
英語(論文から抽出)日本語訳スコア
In Figure 4 we report the MLM loss measured on the validation dataset for GroupBERT and baseline BERT models of different sizes. 図4では、異なるサイズの GroupBERT モデルとベースライン BERT モデルの検証データセットで測定された MLM の損失を報告する。 0.77
While evaluating task performance in the context of FLOPs (Figure 4a) assesses the theoretical performance, the model execution depends on other factors besides FLOPs. FLOPの文脈におけるタスク性能の評価(第4a図)において、モデルの実行はFLOP以外の要因に依存する。 0.72
For this reason, to complement the performance based on FLOPs, we also assess speed of execution, highlighting that GroupBERT saves overall time-to-train (Figure 4b). そのため、FLOPをベースとしたパフォーマンスを補完するため、実行速度も評価し、GroupBERTが全体の時間とトレーニングを節約する(図4b)。
訳抜け防止モード: そのためである。 FLOPに基づくパフォーマンスを補完する 実行速度も評価します GroupBERT は全体の -to - train (図 4b ) 時間を節約します。
0.81
Figure 4 summarizes the practical benefits of using GroupBERT in terms of both FLOPs and training time to reach a desired task performance. 図4は、望ましいタスクパフォーマンスに到達するためのFLOPとトレーニング時間の両方の観点から、GroupBERTを使用することの実践的なメリットを要約します。
訳抜け防止モード: 図4は実用上の利点を要約します FLOPとトレーニング時間の両方でGroupBERTを使用して、望ましいタスクパフォーマンスを達成する。
0.75
By plotting many model sizes of the same family, the efficiency of GroupBERT is clearly visible. 同じ家系の多くのモデルサイズをプロットすることにより、GroupBERTの効率は明らかに見える。 0.68
The GroupBERT Base model outperforms baseline BERT Large, but uses only 47% of its resources and trains in half the time. GroupBERTベースモデルはベースラインのBERT Largeより優れているが、資源の47%しか使用していない。 0.63
4.4 Fine-tuning Both the theoretical and the practical Pareto improvements achieved by GroupBERT on MLM evaluation loss translate to the SQuAD fine-tuning task (Figures 5 and Appendix B). 4.4 微調整 MLM評価におけるGroupBERTによる理論的および実用的なParetoの改善は、どちらもSQuAD微調整タスク(図5、アペンディックスB)に相当する。 0.64
Not considering the additional dropout in fine-tuning, the cost for training on downstream tasks for different model sizes is proportional to the cost for pre-training, while a few orders of magnitude smaller. 微調整における追加のドロップアウトを考慮せず、異なるモデルサイズでの下流タスクのトレーニングのコストは、事前トレーニングのコストに比例するが、数桁のオーダーは小さくなる。 0.69
Hence, FLOPs and time-to-train as measures of training cost are given for pre-training, as fine-tuning takes a comparatively negligible amount of resources. したがって、微調整が比較的不可分な量の資源を必要とするため、トレーニングコストの尺度としてのフラップとトレーニングまでの時間が提供される。 0.59
(a) (c) (b) (a) (c) (b) 0.85
(d) Figure 5: Median SQuAD F1 and Exact Match scores ± standard deviation of the GroupBERT and BERT model families plotted against the total pre-training FLOPs (a,c) and against the total time to pre-train (b,d). (d) 図5: Median SQuAD F1 and Exact Match scores ± standard deviation of the GroupBERT and BERT model family ploted against the total pre-training FLOPs (a,c) and on the total time to pre-train (b,d)。 0.88
7 MediumBaseLargeMediu m+Base+Large+ImprovedMediumBaseLa rgeMedium+Base+Large+Improved 7 MediumBaseLargeMediu m+Base+Large+ImprovedMediumBaseLa rgeMedium+Base+Large+Improved 0.49
英語(論文から抽出)日本語訳スコア
4.5 Ablation Study 4.5 アブレーション研究 0.69
To verify the efficiency of the different model changes, we study their individual contribution to the validation MLM loss improvement as well as their cost in terms of parameters and FLOPs (Table 1). 異なるモデル変更の効率性を検証するために,検証mlmの損失改善に対する個々の貢献とパラメータとフラップのコストについて検討した(表1)。 0.74
Some of the ablation modifications that we make add extra parameters that trigger a divergence during model training when using the best learning rate. 最高の学習率を使用する場合、モデルトレーニング中に分岐を引き起こす余分なパラメータを追加するアブレーション修正のいくつか。 0.74
Therefore for the ablation study we use the BERT Base model with the next-best learning rate as the main comparison point, to allow the use of the same learning rate throughout. そこで, アブレーション研究では, 次の学習率のbertベースモデルが主比較点となり, 同じ学習率を総合的に使用できるようにする。 0.71
We measure the performance of each modification with the Pareto improvement of the corresponding model, defined here as the difference in MLM loss with respect to the baseline models for the same FLOPs count. 本稿では,同一フロップ数に対するベースラインモデルに対するmlm損失の差として定義した,対応するモデルのpareto改善による各修正の性能を測定する。 0.81
This is visually represented in Figure 6 by the vertical distance between the ablation point and the baseline interpolation line. これは図6で、アブレーション点とベースライン補間線の間の垂直距離で視覚的に表現される。 0.79
Table 1: Ablation study of the contribution of different model modifications. 表1:異なるモデル修正の貢献に関するアブレーション研究。 0.81
MODEL BERT Base モデルbertベース 0.46
BERT Base Prenorm No Dropout Convolution 2 GFFNs 2 GFFNs + Conv BERT Base Prenorm No Dropout Convolution 2 GFFNs 2 GFFNs + Conv 0.85
GroupBERT Base GroupBERTベース 0.81
PARAMETERS TRAINING FLOPS パラメータ 訓練用フロップ 0.45
110.1M 110.1M 110.1M 110.1M 132.4M 138.5M 160.8M 110.1M 110.1M 110.1M 110.1M 132.4M 138.5M 160.8M 0.40
160.8M 6.1e19 160.8M 6.1e19 0.43
6.1e19 6.1e19 6.1e19 7.3e19 7.6e19 8.8e19 6.1e19 6.1e19 6.1e19 7.3e19 7.6e19 8.8e19 0.27
8.8e19 LR MLM LOSS 2e-4 8.8e19 LR MLM LOSS 2e-4 0.56
1.679 1e-4 8e-4 1e-4 1e-4 1e-4 1e-4 1.679 1e-4 8e-4 1e-4 1e-4 1e-4 1e-4 0.46
8e-4 1.697 1.677 1.651 1.614 1.670 1.573 8e-4 1.697 1.677 1.651 1.614 1.670 1.573 0.45
1.516 IMPROVEMENT 0.018 1.516 改良 0.018 0.53
0.020 0.046 0.058 0.005 0.072 0.020 0.046 0.058 0.005 0.072 0.44
0.126 Figure 6: Ablation results showing the contribution of individual model modifications. 0.126 図6: 個々のモデル修正の貢献を示すアブレーション結果。 0.72
Points where we changed the method of training have the same number of FLOPs as the original BERT Base model. トレーニング方法を変更したポイントは、元のbertベースモデルと同じ数のフロップを持つ。 0.58
Other improvement add some extra FLOPs. 他の改良には余分なフラップが加えられる。 0.55
8 8 0.85
英語(論文から抽出)日本語訳スコア
By carrying out individual additive ablation, we are able to see the effect of every model modification in isolation. 個別の加法的アブレーションを行うことで、全てのモデル修正の効果を独立して見ることができる。 0.72
Furthermore, we investigate the interaction of adding both the convolution module and two GFFN modules. さらに、畳み込みモジュールと2つのGFFNモジュールの相互作用について検討する。 0.70
We observe that every module that mixes token information gets significantly more efficient when used with a matching GFFN module. 一致するGFFNモジュールを使用する場合,トークン情報を混合するモジュールはすべて,より効率的になる。 0.76
While using two GFFN modules increases the performance in line with the baseline model, using it in conjunction with convolution increases its Pareto improvement. 2つのGFFNモジュールを使用すると、ベースラインモデルと同等のパフォーマンスが向上する一方で、畳み込みと併用することでParetoの改善が向上する。 0.71
5 Discussion The improved practical efficiency of GroupBERT reduces the cost of model training. 5 討論 GroupBERTの実用効率の改善により、モデルトレーニングのコストが削減される。 0.70
This provides access to better performing language models for a broader range of users, both in the research community and for industrial applications. これにより、研究コミュニティと産業アプリケーションの両方において、幅広いユーザに対して、より良いパフォーマンスの言語モデルへのアクセスが可能になる。 0.68
Moreover, the advantage of GroupBERT over the BERT baseline model family increases with model size, and therefore reduces the cost for training large and highly accurate language models. さらに,BERTベースラインモデルファミリに対するGroupBERTの優位性はモデルサイズによって増大し,大規模かつ高精度な言語モデルのトレーニングコストが低減される。 0.85
This observed scaling behaviour indicates the capability of GroupBERT to maintain a material advantage for even larger language models. この観察されたスケーリング動作は、さらに大きな言語モデルに対して実質的な優位性を維持するGroupBERTの能力を示している。 0.61
This can be a valuable improvement for state-of-the-art research, relying on models that are increasing in size exponentially. これは、指数関数的に増大しているモデルに依存する、最先端の研究にとって、価値ある改善である。 0.51
With the latest breakthroughs using significant amounts of energy and hardware resources (Brown et al , 2020), efficiency improvements can translate into significant savings. 膨大なエネルギーとハードウェア資源(Brown et al , 2020)を使った最新のブレークスルーによって、効率の改善は大幅な節約に繋がる。 0.77
The BERT models represent not only a step forward for the NLP research community, but also a tool heavily exploited in day-to-day operations of large corporate entities. BERTモデルは、NLP研究コミュニティにとって一歩前進するだけでなく、大企業の日々の業務で大きく活用されるツールでもある。 0.73
Hence, improving the efficiency of these models that are used in production environments can potentially result in significant power savings worldwide, thus limiting greenhouse gas release into the atmosphere. したがって、生産環境で使用されるこれらのモデルの効率を改善することで、世界中の電力節約につながる可能性があるため、温室効果ガスの大気への放出が制限される。 0.65
With this goal, all experiments carried out for our investigation were done using 100% renewable electricity, making this work carbon neutral. 本研究で実施したすべての実験は再生可能エネルギー100%を用いて行われ, カーボン中性化が図られた。 0.72
In this paper we propose a general technique for improving self-supervised Transformers. 本稿では,自己教師型トランスフォーマーの改良手法を提案する。 0.58
However, we only investigate its effectiveness on the English language, due the ease of comparison with other studies using the same datasets. しかし、同じデータセットを用いた他の研究と比較し易いため、英語における効果についてのみ検討する。 0.79
A potential ethical concern is the increasing dominance of language models trained on the English language, which may be detrimental to the efforts of preservation of endangered languages. 潜在的な倫理上の懸念は、英語で訓練された言語モデルの支配が増大していることであり、これは絶滅危惧言語保存の努力に有害である可能性がある。
訳抜け防止モード: 潜在的な倫理的懸念は、英語で訓練された言語モデルの優位性の増加である。 絶滅危惧種の言語を 保存する努力に 有害かもしれません
0.66
Another limitation of this study is the use of the BookCorpus dataset as part of the pre-training process. この研究のもうひとつの制限は、事前学習プロセスの一部としてBookCorpusデータセットを使用することである。 0.61
Pre-training models on this dataset was a standard practice during the course of the investigation, but since then was found to be of questionable ethical value (Bandy & Vincent, 2021). このデータセットの事前トレーニングモデルは、調査期間中に標準的なプラクティスだったが、それ以来、倫理的な価値が疑わしいことが判明した(bandy & vincent, 2021)。 0.71
We have relied on structured weight sparsity to increase the efficiency of BERT and have created more diversity of building blocks within the self-supervised encoder by complementing the attention block with a convolution module. 我々は、bertの効率を高めるために構造的な重量スパーシティに依存し、注意ブロックを畳み込みモジュールで補完することにより、自己教師付きエンコーダ内のビルディングブロックの多様性を高めた。
訳抜け防止モード: 我々は重み空間の構造に依存してきた BERT の効率を高める そして、アテンションブロックをコンボリューションモジュールで補完することで、セルフ-教師付きエンコーダ内でより多様なビルディングブロックを作成しました。
0.70
Our aim is to further build upon these ideas, and construct models that are even more general in their application to different domains and that can be efficiently executed. 我々の目標は、これらのアイデアをさらに構築し、異なるドメインへのアプリケーションにおいてより一般的なモデルを構築し、効率的に実行できることです。 0.77
To do so, we see potential to rely on other forms of sparsity, including dynamic weight sparsity (Evci et al , 2019) and conditional activation sparsity, improving the capability to handle multiple languages and data domains within the same architecture (Fedus et al , 2021). そのためには、動的ウェイトスパーシティ(evci et al , 2019)や条件付きアクティベーションスパーシティなど、他のタイプのスパーシティに依存する可能性があり、同じアーキテクチャ(fedus et al , 2021)内で複数の言語とデータドメインを処理する能力を改善することができます。 0.69
6 Conclusion In this study, we present GroupBERT: an enhanced Transformer architecture that is shown to be a more efficient alternative, with up to 2.1× efficiency gain in terms of both FLOPs and time-to-train. 6 結論 本研究では,フラップと列車走行時間の両方において最大2.1倍の効率向上を実現した,より効率的な変圧器アーキテクチャであるgroupbertを提案する。 0.72
We achieve these improvements by adding a dedicated grouped convolution module to every layer and using grouped transformations to reduce the density of fully connected layers. 各層に専用のグループ化畳み込みモジュールを追加し,グループ化変換を用いて完全連結層の密度を低減することで,これらの改善を実現する。 0.77
The proposed model achieves better results on both pre-training and fine-tuning tasks, and applies to a wide range of model scales. 提案モデルは,事前学習と微調整の両方においてよりよい結果を得ることができ,幅広いモデルスケールに適用できる。 0.78
9 9 0.85
英語(論文から抽出)日本語訳スコア
References Lei Jimmy Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. 参照: Lei Jimmy Ba、Jamie Ryan Kiros、Geoffrey E. Hinton。 0.72
Layer normalization. arXiv preprint 層正規化。 arXiv プレプリント 0.71
arXiv:1607.06450 [stat.ML], 2016. arXiv:1607.06450 [stat.ML], 2016 0.76
Jack Bandy and Nicholas Vincent. ジャック・バンディとニコラス・ヴィンセント 0.73
Addressing "Documentation Debt" in machine learning research: 機械学習研究における「文書負債」への取り組み 0.68
A retrospective datasheet for BookCorpus. BookCorpusの振り返りデータシート。 0.66
arXiv preprint arXiv:2105.05241 [cs.CL], 2021. arXiv preprint arXiv:2105.05241 [cs.CL], 2021 0.83
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. トム・B。 Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateuss Litwin, Scott Gray, Benjamin Chesss, Jack Clark, Christopher Berner, McCandlish, Alec Radly Ia Sutsk, Dario Amai 0.79
Language models are few-shot learners. 言語モデルはわずかな学習者です。 0.69
arXiv preprint arXiv:2005.14165 [cs.CL], 2020. arXiv preprint arXiv:2005.14165 [cs.CL], 2020 0.83
Junyoung Chung, Çaglar Gülçehre, KyungHyun Cho, and Yoshua Bengio. junyoung chung、çaglar gülçehre、kyunghyun cho、yoshua bengioなど。 0.59
Empirical evaluation of gated recurrent neural networks on sequence modeling. シーケンスモデリングにおけるゲートリカレントニューラルネットワークの実験的評価 0.78
arXiv preprint arXiv:1412.3555 [cs.NE], 2014. arXiv preprint arXiv:1412.3555 [cs.NE], 2014 0.82
Jean-Baptiste Cordonnier, Andreas Loukas, and Martin Jaggi. Jean-Baptiste Cordonnier、Andreas Loukas、Martin Jaggi。 0.80
On the relationship between selfattention and convolutional layers. 自己着脱層と畳み込み層との関係について 0.60
In 8th International Conference on Learning Representations, ICLR 2020, 2020. 第8回国際学習表現会議(ICLR 2020, 2020)に参加して 0.78
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, and Ruslan Salakhutdinov. Zihang Dai、Zhilin Yang、Yiming Yang、Jaime Carbonell、Quoc V. Le、Ruslan Salakhutdinov。 0.67
Transformer-XL: Attentive language models beyond a fixed-length context. Transformer-XL: 固定長コンテキストを超えた注意型言語モデル。 0.68
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019. 第57回計算言語学会年次大会を終えて 0.37
Yann N. Dauphin, Angela Fan, Michael Auli, and David Grangier. Yann N. Dauphin、Angela Fan、Michael Auli、David Grangier。 0.77
Language modeling with gated convolutional networks. ゲート畳み込みネットワークを用いた言語モデリング 0.79
In 34th International Conference on Machine Learning, ICML 2017, pp. 第34回International Conference on Machine Learning, ICML 2017, pp。 0.81
933–941, 2017. 933–941, 2017. 0.84
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
BERT: pre-training of deep bidirectional transformers for language understanding. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.76
arXiv preprint arXiv:1810.04805 [cs.CL], 2018. arXiv preprint arXiv:1810.04805 [cs.CL], 2018 0.81
Jesse Dodge, Gabriel Ilharco, Roy Schwartz, Ali Farhadi, Hannaneh Hajishirzi, and Noah Smith. Jesse Dodge、Gabriel Ilharco、Roy Schwartz、Ali Farhadi、Hannaneh Hajishirzi、Noah Smith。 0.71
Fine-tuning pretrained language models: Weight initializations, data orders, and early stopping. 微調整事前訓練言語モデル: 軽量初期化、データ順序、早期停止。 0.76
arXiv preprint arXiv:2002.06305 [cs.CL], 2020. arXiv preprint arXiv:2002.06305 [cs.CL], 2020 0.83
Yihe Dong, Jean-Baptiste Cordonnier, and Andreas Loukas. Yihe Dong、Jean-Baptiste Cordonnier、Andreas Loukas。 0.79
Attention is not all you need: Pure attention loses rank doubly exponentially with depth. 純粋な注意は、深さと2倍に指数関数的にランクを失う。 0.54
arXiv preprint arXiv:2103.03404 [cs.LG], 2021. arXiv preprint arXiv:2103.03404 [cs.LG], 2021 0.83
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby 0.77
An image is worth 16x16 words: Transformers for image recognition at scale. 画像は16×16ワードで、画像認識のためのトランスフォーマーである。 0.67
arXiv preprint arXiv:2010.11929 [cs.CV], 2020. arXiv preprint arXiv:2010.11929 [cs.CV], 2020 0.83
Utku Evci, Trevor Gale, Jacob Menick, Pablo Samuel Castro, and Erich Elsen. Utku Evci、Trevor Gale、Jacob Menick、Pablo Samuel Castro、Erich Elsen。 0.68
Rigging the lottery: Making all tickets winners. 宝くじ:全てのチケットの勝者を作る。 0.68
arXiv preprint arXiv:1911.11134 [cs.LG], 2019. arXiv preprint arXiv:1911.11134 [cs.LG], 2019 0.83
URL http://arxiv. url http://arxiv。 0.79
org/abs/1911.11134. org/abs/1911.11134。 0.38
William Fedus, Barret Zoph, and Noam Shazeer. William Fedus、Barret Zoph、Noam Shazeer。 0.63
Switch transformers: Scaling to trillion parameter switch transformers: trillionパラメータへのスケーリング 0.91
models with simple and efficient sparsity. シンプルで効率的な空間を持つモデルです 0.61
arXiv preprint arXiv:2101.03961 [cs.LG], 2021. arXiv preprint arXiv:2101.03961 [cs.LG], 2021 0.83
Quentin Fournier, Gaétan Marceau Caron, and Daniel Aloise. Quentin Fournier、Gaétan Marceau Caron、Daniel Aloise。 0.71
A practical survey on faster and lighter 高速軽量化に関する実践的研究 0.63
transformers. arXiv preprint arXiv:2103.14636 [cs.LG], 2021. 変圧器だ arXiv preprint arXiv:2103.14636 [cs.LG], 2021 0.69
Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, and Ruoming Pang. Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang 0.79
Conformer: Convolution-augmente d transformer for speech recognition. convolution-augmente d transformer for speech recognition(英語) 0.76
arXiv preprint arXiv:2005.08100 [eess.AS], 2020. arXiv preprint arXiv:2005.08100 [ees.AS], 2020 0.83
10 10 0.85
英語(論文から抽出)日本語訳スコア
Aaron Harlap, Deepak Narayanan, Amar Phanishayee, Vivek Seshadri, Nikhil Devanur, Greg Ganger, Aaron Harlap, Deepak Narayanan, Amar Phanishayee, Vivek Seshadri, Nikhil Devanur, Greg Ganger 0.80
and Phil Gibbons. そしてフィル・ギボンズ。 0.60
Pipedream: Fast and efficient pipeline parallel dnn training, 2018. pipedream: 高速かつ効率的なパイプライン並列dnnトレーニング、2018年。 0.81
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. he、xiangyu zhang、shaoqing ren、jian sunの開明。 0.54
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, pp. 2016年のIEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, pp。 0.81
770–778, 2016. 770–778, 2016. 0.84
Geoffrey Hinton, Oriol Vinyals, and Jeffrey Dean. ジェフリー・ヒントン、オリオール・ヴィニールズ、ジェフリー・ディーン。 0.48
Distilling the knowledge in a neural network. ニューラルネットワークで知識を蒸留する。 0.66
In NIPS Deep Learning and Representation Learning Workshop, 2015. NIPS Deep Learning and Representation Learning Workshop, 2015 に参加して 0.92
URL http://arxiv.org/ abs/1503.02531. URL http://arxiv.org/ abs/1503.02531 0.53
Sepp Hochreiter and Jürgen Schmidhuber. Sepp HochreiterとJürgen Schmidhuber。 0.74
Long short-term memory. Neural Computation, 9(8): 短期記憶。 ニューラル計算, 9(8) 0.56
1735–1780, 1997. 1735–1780, 1997. 0.84
Sara Hooker. The hardware lottery. サラ・フッカー。 ハードウェアの宝くじ。 0.54
arXiv preprint arXiv:2009.06489 [cs.CY], 2020. arXiv preprint arXiv:2009.06489 [cs.CY], 2020 0.83
Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam 0.78
MobileNets: Efficient convolutional neural networks for mobile vision applications. MobileNets: モバイルビジョンアプリケーションのための効率的な畳み込みニューラルネットワーク。 0.76
arXiv preprint arXiv:1704.04861 [cs.CV], 2017. arXiv preprint arXiv:1704.04861 [cs.CV], 2017 0.81
Forrest Iandola, Albert Shaw, Ravi Krishna, and Kurt Keutzer. Forrest Iandola、Albert Shaw、Ravi Krishna、Kurt Keutzer。 0.72
SqueezeBERT: What can computer In Proceedings of SustaiNLP: Workshop vision teach NLP about efficient neural networks? SqueezeBERT: SstaiNLP: ワークショップビジョンは、効率的なニューラルネットワークについてNLPに教える? 0.71
on Simple and Efficient Natural Language Processing, pp. 単純で効率的な自然言語処理について, pp。 0.74
124–135, Online, November 2020. 124-135 オンライン、2020年11月。 0.61
Association for Computational Linguistics. doi: 10.18653/v1/2020.sus tainlp-1.17. 計算言語学会会員。 10.18653/v1/2020.sus tainlp-1.17 0.42
URL https: //www.aclweb.org/ant hology/2020.sustainl p-1.17. URL https: //www.aclweb.org/Ant hology/2020.sustainl p-1.17 0.33
Yani Ioannou, Duncan Robertson, Roberto Cipolla, and Antonio Criminisi. Yani Ioannou、Duncan Robertson、Roberto Cipolla、Antonio Criminisi。 0.68
Deep roots: Improving CNN efficiency with hierarchical filter groups. Deep roots: 階層的なフィルタグループによるCNN効率の改善。 0.76
In 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, pp. 2017年、IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017 pp。 0.77
5977–5986, 2017. 5977–5986, 2017. 0.84
Zhe Jia, Blake Tillman, Marco Maggioni, and Daniele Paolo Scarpazza. Zhe Jia, Blake Tillman, Marco Maggioni, Daniele Paolo Scarpazza 0.67
Dissecting the graphcore IPU architecture via microbenchmarking. graphcore ipuアーキテクチャをマイクロベンチマークで解剖する。 0.65
arXiv preprint arXiv:1912.03413 [cs.DC], 2019. arXiv preprint arXiv:1912.03413 [cs.DC], 2019 0.83
URL http://arxiv.org/abs /1912.03413. URL http://arxiv.org/abs /1912.03413。 0.43
Zi-Hang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, and Shuicheng Yan. Zi-Hang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, Shuicheng Yan 0.76
Convbert: Improving bert with span-based dynamic convolution. convbert: スパンベースの動的畳み込みによるbertの改善。 0.54
In Advances in Neural Information Processing Systems 33, NeurIPS 2020, pp. ニューラル情報処理システム33, NeurIPS 2020, pp。 0.55
12837–12848, 2020. 12837–12848, 2020. 0.84
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Jared Kaplan、Sam McCandlish、Tom Henighan、Tom B。 0.77
Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. ブラウン、ベンジャミン・チェス、ルーン・チャイルド、スコット・グレイ、アレック・ラドフォード、ジェフリー・ウー、ダリオ・アモディ。 0.60
Scaling laws for neural language models. ニューラルネットワークモデルのスケーリング法則。 0.54
arXiv preprint arXiv:2001.08361 [cs.LG], 2020. arXiv preprint arXiv:2001.08361 [cs.LG], 2020 0.83
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Alex Krizhevsky、Ilya Sutskever、Geoffrey E Hinton。 0.66
Imagenet classification with deep convolutional neural networks. 深部畳み込みニューラルネットワークを用いた画像ネット分類 0.83
In Advances in Neural Information Processing Systems 25, pp. ニューラル情報処理システム25, pp。 0.45
1106–1114, 2012. 1106–1114, 2012. 0.84
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut 0.69
Albert: A lite bert for self-supervised learning of language representations. albert: 言語表現の自己教師あり学習のためのlite bert。 0.77
In 8th International Conference on Learning Representations, ICLR 2020, 2020. 第8回国際学習表現会議(ICLR 2020, 2020)に参加して 0.78
James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, and Santiago Ontanon. James Lee-Thorp、Joshua Ainslie、Ilya Eckstein、Santiago Ontanon。 0.76
FNet: Mixing tokens with FNet:トークンを混合する 0.85
Fourier Transforms. arXiv preprint arXiv:2105.03824 [cs.CL], 2021. フーリエ変換。 arXiv preprint arXiv:2105.03824 [cs.CL], 2021 0.75
Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, and Jiawei Han. Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Jiawei Han 0.69
Understanding the difficulty of training Transformers. 困難を理解する トランスフォーマーのトレーニング。 0.73
arXiv preprint arXiv:2004.08249 [cs.LG], 2020. arXiv preprint arXiv:2004.08249 [cs.LG], 2020 0.83
Ilya Loshchilov and Frank Hutter. Ilya LoshchilovとFrank Hutter。 0.79
Decoupled weight decay regularization. decoupled weight decay regularization の略。 0.68
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
URL https://openreview.n et/forum?id= Bkg6RiCqY7. URL https://openreview.n et/forum?id= Bkg6RiCqY7 0.58
Dominic Masters, Antoine Labatie, Zach Eaton-Rosen, and Carlo Luschi. Dominic Masters、Antoine Labatie、Zach Eaton-Rosen、Carlo Luschi。 0.80
Making EfficientNet more efficient: Exploring batch-independent normalization, group convolutions and reduced resolution training. EfficientNetをより効率的にする: バッチ非依存の正規化、グループ畳み込み、解像度トレーニングの削減。 0.62
arXiv preprint arXiv:2106.03640 [cs.LG], 2021. arXiv preprint arXiv:2106.03640 [cs.LG], 2021 0.83
11 11 0.85
英語(論文から抽出)日本語訳スコア
Sachin Mehta, Rik Koncel-Kedziorski, Mohammad Rastegari, and Hannaneh Hajishirzi. Sachin Mehta, Rik Koncel-Kedziorski, Mohammad Rastegari, Hannaneh Hajishirzi 0.76
DeFINE: Deep factorized input token embeddings for neural sequence modeling. 定義: 神経シーケンスモデリングのための深い因子化された入力トークン埋め込み。 0.64
In 8th International Conference on Learning Representations, ICLR 2020, 2020. 第8回国際学習表現会議(ICLR 2020, 2020)に参加して 0.78
Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, and Hannaneh Hajishirzi. Sachin Mehta、Marjan Ghazvininejad、Srinivasan Iyer、Luke Zettlemoyer、Hannaneh Hajishirzi。 0.70
In 9th International Conference on Learning 第9回国際学習会議報告 0.77
DeLight: Deep and light-weight transformer. DeLight: ディープで軽量なトランス。 0.60
Representations, ICLR 2021, 2021. 表題はICLR 2021, 2021。 0.64
Stephen Merity. スティーブン・マーティ。 0.62
2016. the-wikitext-depende ncy-language-modelin g-dataset/. 2016-wikitext-depend ency-language-modeli ng-dataset/ 0.32
long term dependency language modeling dataset, URL https://www.salesfor ce.com/products/eins tein/ai-research/ 長期依存言語モデリングデータセット、URL https://www.salesfor ce.com/products/eins tein/ai-research/ 0.46
The WikiText Paul Michel, Omer Levy, and Graham Neubig. WikiText Paul Michel、Omer Levy、Graham Neubig。 0.61
Are sixteen heads really better than one? 16の頭は1より本当にいいですか。 0.61
In Advances in Neural Information Processing Systems 32, NeurIPS 2019, 2019. 進歩して In Neural Information Processing Systems 32, NeurIPS 2019, 2019。 0.69
Marius Mosbach, Maksym Andriushchenko, and Dietrich Klakow. Marius Mosbach、Maksym Andriushchenko、Dietrich Klakow。 0.68
On the stability of fine-tuning In International Conference on 国際会議における微調整の安定性について 0.74
BERT: Misconceptions, explanations, and strong baselines. bert: 誤解、説明、そして強いベースラインです。 0.56
Learning Representations, ICLR 2021, 2021. 英語) Learning Representations, ICLR 2021, 2021 0.81
Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever 0.73
Language models are unsupervised multitask learners. 言語 モデルは教師なしマルチタスク学習者です 0.72
2019. Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. 2019. Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.74
SQuAD: 100,000+ questions for machine comprehension of text. SQuAD: 機械によるテキスト理解のための10万以上の質問。 0.60
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2016. 2016年 自然言語処理における経験的手法に関する国際会議を開催。 0.70
URL https://arxiv.org/ab s/1606.05250. URL https://arxiv.org/ab s/1606.05250 0.46
Prajit Ramachandran, Barret Zoph, and Quoc V. Le. Prajit Ramachandran, Barret Zoph, Quoc V. Le 0.71
Searching for activation functions. アクティベーション関数の検索。 0.71
arXiv preprint arXiv プレプリント 0.83
arXiv:1710.05941 [cs.NE], 2017. arXiv:1710.05941 [cs.NE], 2017 0.74
Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Nitish Srivastava、Geoffrey Hinton、Alex Krizhevsky、Ilya Sutskever、Ruslan Salakhutdinov。 0.61
Dropout: A simple way to prevent neural networks from overfitting. dropout: ニューラルネットワークの過剰フィットを防ぐシンプルな方法。 0.74
The Journal of Machine Learning Research, 15(1):1929–1958, 2014. The Journal of Machine Learning Research, 15(1):1929–1958, 2014 0.91
Emma Strubell, Ananya Ganesh, and Andrew McCallum. Emma Strubell、Ananya Ganesh、Andrew McCallum。 0.70
Energy and policy considerations for deep learning in NLP. NLPにおける深層学習のためのエネルギーと政策に関する考察 0.75
In 57th Conference of the Association for Computational Linguistics, ACL 2019, pp. 第57回計算言語学会大会, ACL 2019, pp。 0.56
3645–3650, 2019. 3645–3650, 2019. 0.84
Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Ilya Sutskever, Oriol Vinyals, Quoc V. Le 0.68
Sequence to sequence learning with neural networks. ニューラルネットワークを用いたシーケンスからシーケンスへの学習。 0.67
arXiv preprint arXiv:1409.3215 [cs.CL], 2014. arXiv preprint arXiv:1409.3215 [cs.CL], 2014 0.82
Mingxing Tan and Quoc Le. Mingxing TanとQuoc Le。 0.67
EfficientNet: Rethinking model scaling for convolutional neural networks. EfficientNet: 畳み込みニューラルネットワークのモデルスケーリングを再考する。 0.81
In 36th International Conference on Machine Learning, ICML 2019, pp. 第36回In 36th International Conference on Machine Learning, ICML 2019, pp。 0.81
6105–6114, 2019. 6105–6114, 2019. 0.84
Yi Tay, Mostafa Dehghani, Dara Bahri, and Donald Metzler. Yi Tay、Mostafa Dehghani、Dara Bahri、Donald Metzler。 0.64
Efficient transformers: A survey. 効率的なトランスフォーマー: 調査。 0.76
arXiv preprint arXiv:2009.06732 [cs.LG], 2020. arXiv arXiv:2009.06732 [cs.LG], 2020 0.82
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin 0.76
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
arXiv preprint arXiv:1706.03762 [cs.CL], 2017. arXiv preprint arXiv:1706.03762 [cs.CL], 2017 0.81
Qiang Wang, Bei Li, Tong Xiao, Jingbo Zhu, Changliang Li, Derek F Wong, and Lidia S Chao. Qiang Wang, Bei Li, Tong Xiao, Jingbo Zhu, Changliang Li, Derek F Wong, Lidia S Chao 0.73
Learning deep transformer models for machine translation. 機械翻訳のための深いトランスフォーマーモデルを学ぶ。 0.75
arXiv preprint arXiv:1906.01787 [cs.CL], 2019. arXiv preprint arXiv:1906.01787 [cs.CL], 2019 0.83
Felix Wu, Angela Fan, Alexei Baevski, Yann N. Dauphin, and Michael Auli. Felix Wu、Angela Fan、Alexei Baevski、Yann N. Dauphin、Michael Auli。 0.76
Pay less attention with Pay less attention with ~ 0.93
lightweight and dynamic convolutions. 軽量でダイナミックな畳み込みです 0.74
arXiv preprint arXiv:1901.10430 [cs.CL], 2019a. arXiv preprint arXiv:1901.10430 [cs.CL], 2019a. 0.74
Felix Wu, Angela Fan, Alexei Baevski, Yann N. Dauphin, and Michael Auli. Felix Wu、Angela Fan、Alexei Baevski、Yann N. Dauphin、Michael Auli。 0.76
Pay less attention with lightweight and dynamic convolutions. 軽量でダイナミックな畳み込みでは注意を払わない。 0.52
In 7th International Conference on Learning Representations, ICLR 2019, 2019b. 第7回国際学習表現会議(ICLR 2019, 2019b)に参加して 0.73
URL https://openreview.n et/forum?id=SkVhlh09tX. URL https://openreview.n et/forum?id=SkVhlh09tX 0.54
12 12 0.85
英語(論文から抽出)日本語訳スコア
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Łukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean. Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Sukasz Kaiser, Stephan Gouws, Kato Yoshi清, Taku Kudo, Kazawa Hideto, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corra Macduffes, Jean Deanffrey 0.83
Google’s neural machine translation system: Bridging the gap between human and machine translation. Googleのニューラルマシン翻訳システム: 人間と機械の翻訳のギャップを埋める。 0.71
arXiv preprint arXiv:1609.08144 [cs.CL], 2016. arXiv preprint arXiv:1609.08144 [cs.CL], 2016 0.82
Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, and Song Han. Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han 0.68
Lite Transformer with long-short range 長短域のLite Transformer 0.69
attention. In 8th International Conference on Learning Representations, ICLR 2020, 2020. 注意。 第8回国際学習表現会議(ICLR 2020, 2020)に参加して 0.70
Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He. Saiing Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He。 0.79
Aggregated residual transformations for deep neural networks. ディープニューラルネットワークのための集約残差変換 0.69
In 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, pp. 2017年、IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017 pp。 0.77
1492–1500, 2017. 1492–1500, 2017. 0.84
Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, and Tieyan Liu. Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, Tieyan Liu 0.75
On layer normalization in the Transformer architecture. Transformer アーキテクチャにおける層正規化について 0.65
In 37th International Conference on Machine Learning, ICML 2020, pp. 第37回In the 37th International Conference on Machine Learning, ICML 2020, pp。 0.76
10524–10533, 2020. 10524–10533, 2020. 0.84
Tianyi Zhang, Felix Wu, Arzoo Katiyar, Kilian Q Weinberger, and Yoav Artzi. Tianyi Zhang、Felix Wu、Arzoo Katiyar、Kilian Q Weinberger、Yoav Artzi。 0.67
Revisiting few-sample BERT fine-tuning. 数サンプルのBERT微調整を再検討する。 0.34
In International Conference on Learning Representations, ICLR 2021, 2021. International Conference on Learning Representations, ICLR 2021, 2021 0.67
Yukun Zhu, Ryan Kiros, Richard S. Zemel, Ruslan Salakhutdinov, Raquel Urtasu, Antonio Torralba, and Sanja Fidler. Yukun Zhu, Ryan Kiros, Richard S. Zemel, Ruslan Salakhutdinov, Raquel Urtasu, Antonio Torralba, Sanja Fidler 0.76
Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. 本や映画を配する:映画を見て本を読むことで物語のような視覚的説明を目指す。 0.56
arXiv preprint arXiv:1506.06724 [cs.CV], 2015. arXiv preprint arXiv:1506.06724 [cs.CV], 2015 0.82
13 13 0.85
英語(論文から抽出)日本語訳スコア
A Execution scheme In pipeline parallelism, a model is divided between multiple accelerators. 実行方式 パイプライン並列性では、モデルは複数のアクセラレータに分割される。 0.56
Pipeline parallelism is a form of model parallelism where execution is decomposed into a sequence of stages. パイプライン並列性(pipeline parallelism)は、実行を一連のステージに分解するモデル並列性の一形態である。 0.71
At a given instant, every stage is processing a different and independent partition of the model, before passing it on to the next stage. 与えられた瞬間に、各ステージはモデルが異なる独立したパーティションを処理し、それを次のステージに渡す。 0.69
For the majority of our experiments we split the model between four chips, three for encoder layers and one for embedding, projection and loss. 実験の大部分では、モデルを4つのチップ、3つはエンコーダ層、1つは埋め込み、投影、損失に分割しました。 0.69
However GroupBERT Large has a larger memory footprint, making an eight-chip pipeline the most efficient for execution. しかし、GroupBERT Largeはメモリフットプリントが大きいため、8チップのパイプラインが実行に最も効率的である。 0.70
To create computational parity between all models, we replicate four-chip pipelines twice for data parallel training, resulting in eight chips being used for all experiments. 全モデル間の計算パリティを作成するために、データ並列トレーニングに4チップパイプラインを2回複製し、すべての実験に8チップを使用する。 0.75
In the context of pipelined training, we distinguish between compute batch size and global batch size. パイプライン化されたトレーニングの文脈では、計算バッチサイズとグローバルバッチサイズを区別する。 0.69
The general formula for global batch size is: グローバルバッチサイズに関する一般的な公式は、 0.72
Global batch size = Replicas × Accumulation factor × Pipeline depth × Compute batch size Global batch size = Replicas × Accumulation Factor × Pipeline depth × Compute batch size 0.85
Here the compute batch size is the largest portion of the global batch at every pipeline stage, which is always maximized for efficient resource utilization. ここで計算バッチのサイズは、パイプラインの各段階でグローバルバッチの最大の部分であり、効率的なリソース利用のために常に最大化されます。 0.70
The pipeline depth is given by the total number of stages in the forward and backward passes. パイプラインの深さは、前方および後方のパスにおけるステージの総数によって与えられる。 0.76
Therefore, the accumulation factor is the only variable independent from the model structure and pipeline layout, which we can change to get a desired global batch size. したがって、蓄積係数はモデル構造とパイプラインレイアウトから独立した唯一の変数であり、望ましいグローバルバッチサイズを得るために変更できる。 0.75
We target the use of a global batch size 500 ± 20 for all experiments. 全実験で500 ± 20グローバルバッチサイズの使用を目標としている。 0.74
This value is not exact and has to vary slightly for different model sizes, as the pipeline layout dictates the exact global batch size that can be used. この値は正確ではなく、パイプラインレイアウトが使用可能な正確なグローバルバッチサイズを決定するため、モデルサイズによってわずかに変更する必要がある。 0.72
However, we have not observed any significant effect of these variations on task-performance. しかし,これらの変化がタスク性能に与える影響は確認されていない。 0.66
Table 2: Overview of the different model sizes used in this study, with the number of parameters used for the BERT baseline model and our GroupBERT architecture. 表2: 本研究では、BERTベースラインモデルとGroupBERTアーキテクチャで使用されるパラメータの数について、さまざまなモデルサイズについて概観する。 0.78
MODEL SIZE Small Medium Base Large 模型サイズ小型中型大型化 0.68
LAYERS HIDDEN SIZE PARAMS BERT 層状ハイデンサイズ PARAMS BERT 0.65
PARAMS GROUPBERT PARAMS GROUPBERT 0.85
4 8 12 24 512 512 768 1024 4 8 12 24 512 512 768 1024 0.85
29.1M 41.7M 110.1M 336.2M 29.1M41.7M110.1M336. 2M 0.31
37.6M 56.9M 160.8M 515.5M 37.6M56.9M160.8M515. 5M 0.33
Table 3: Pre-training hyperparameters for both BERT and GroupBERT model families. 表3: BERT と GroupBERT モデルファミリ用の事前トレーニングハイパーパラメータ。 0.79
FAMILY HYPERPARAMETER Learning rate Batch size 家族 ハイパーパラメータ学習率バッチサイズ 0.67
BERT GroupBERT Learning rate BERT GroupBERT学習率 0.81
Batch size SMALL MEDIUM BASE 2e-4 4e-4 480 512 8e-4 3e-3 512 480 バッチサイズ 小媒体2e-4 4e-4480 5e-4 3e-3 512 480 0.63
2e-4 480 1.5e-3 480 2e-4 480 1.5e-3 480 0.45
LARGE 1e-4 512 4e-4 480 LARGE 1e-4 512 4e-4 480 0.59
14 14 0.85
英語(論文から抽出)日本語訳スコア
B Fine-tuning Results and Hyperparameters Bファインチューニング結果とハイパーパラメータ 0.75
Table 4 contains the SQuAD v1.1 fine-tuning results produced from the validation dataset. 表4は、検証データセットから生成されたSQuAD v1.1の微調整結果を含む。 0.57
When fine-tuning GroupBERT models, we always used batch size 32 ± 2 (for the reasons outlined in Appendix A), trained for either 2 or 3 epochs, with learning rates being one of the following: {1e-4, 1. GroupBERTモデルを微調整する場合、我々は常にバッチサイズ32 ± 2(Appendix Aで概説されている理由のために)を使用し、2または3のエポックでトレーニングを行い、学習率を次の1つとした。 0.73
5e-4, 2e-4, 3e-4, 4e-4}. 5e-4, 2e-4, 3e-4, 4e-4}。 0.51
Each model required a sweep to identify the best candidate. 各モデルは最適な候補を特定するためにスイープを必要とした。 0.60
The sweep for the baseline BERT models was performed according to range of hyperparamters specified in Devlin et al (2018). BERTモデルはDevlin et al (2018)で特定されたハイパーパラメータの範囲に応じてスイープされた。 0.70
Table 4: SQuAD v1.1 results, F1/Exact match %. 表4: SQuAD v1.1 結果、F1/Exact match % 0.75
SCORE BERT GroupBERT ショアベルトグループバー 0.21
SMALL 73.2 / 81.9 76.8 / 84.7 小型 73.2 / 81.9 76.8 / 84.7 0.55
MEDIUM 79.0 / 86.4 80.9 / 88.1 MEDIUM 79.0 / 86.4 80.9 / 88.1 0.59
BASE LARGE 81.6 / 88.9 83.5 / 90.2 基地 大型 81.6 / 88.9 83.5 / 90.2 0.58
84.2 / 90.8 85.5 / 91.7 84.2 / 90.8 85.5 / 91.7 0.55
C Attention maps To visualise the effect of introducing a convolution block into the model, we study the attention maps of each head. C 注意図 畳み込みブロックをモデルに導入する効果を可視化するために,各頭部の注意マップについて検討する。 0.72
An attention map shows the softmax weight between every pair of positions in the sequence. 注意マップは、シーケンス内の各一対の位置の間のソフトマックス重量を示す。 0.72
In order to remove the effect of content and focus on position, we average the attention map over 103 validation sequences. コンテンツの影響を取り除き,位置に集中するために,アテンションマップを103の検証シーケンスで平均する。 0.68
We show these maps in Figures 7, 8 and 9, generated after pre-training phase one. 図7,8,9にこれらの地図をプレトレーニングフェーズ1の後に生成する。 0.75
To quantify the locality of an attention head, we define the normalized positional entropy: 注目ヘッドの局所性を定量化するために、正規化された位置エントロピーを定義する。 0.61
L(cid:88) L(cid:88) l(cid:88) l(cid:88) 0.76
H(a) = 1 L log L H(a) = 1 L log L 0.85
i=1 j=1 aij log aij, i=1 j=1 Aij log aij 0.59
(3) where aij is the attention weight between source position i and destination j and L is the sequence length. (3) aij はソース位置 i と宛先 j と L の間の注意重みであり、L はシーケンス長である。 0.82
We average the normalized positional entropy over all layers and heads to get a single metric describing a trained model. すべての層と頭上の正規化位置エントロピーを平均化し、トレーニングされたモデルを記述する単一のメトリクスを得る。 0.66
This measures to what extent attention maps are spread out over different positions. この措置は、注意マップがどの位異なる位置に広がるかを示す。 0.75
Results for Base-sized models are given in Table 5. 基本サイズモデルの結果は表5で示される。 0.82
The models were trained for the ablation study of Section 4.5, showing the effect of individual components on entropy. モデルは第4.5節のアブレーション研究のために訓練され、個々の成分がエントロピーに及ぼす影響を示した。 0.61
Table 5: Average normalized positional entropy for the models of Section 4.5. 表5: 4.5節のモデルの平均正規化位置エントロピー。 0.80
Models containing convolutions, Conv and GroupBERT, show higher entropy. 畳み込みを含むモデルであるConvとGroupBERTは高いエントロピーを示す。 0.63
MODEL BERT Base Conv GroupBERT Base モデル bert base conv groupbert base 0.60
NORMALIZED ENTROPY 0.75 0.92 0.89 正規化エントロピー 0.75 0.92 0.89 0.40
15 15 0.85
英語(論文から抽出)日本語訳スコア
Figure 7: BERT Base attention maps, for all layers L0−L11. 図 7: bert base attention maps, for all layers l0-l11。 0.71
Heads h0−h11 in each layer are ordered by positional entropy, Equation 3. 各層内のヘッドh0−h11は位置エントロピー式3で順序付けされる。 0.70
Drawn with a value range of [0, 0.1] and gamma of 1/3. 0, 0.1] の値範囲と 1/3 のガンマで描画される。 0.77
16 16 0.85
英語(論文から抽出)日本語訳スコア
Figure 8: BERT Base + Conv attention maps, generated and drawn as per Figure 7. 図8: bert base + conv attention map、図7に従って生成、描画されます。 0.76
17 17 0.85
英語(論文から抽出)日本語訳スコア
Figure 9: GroupBERT Base attention maps, generated and drawn as per Figure 7. 図9: groupbertベースアテンションマップ、図7に従って生成、描画されます。 0.69
18 18 0.85
                                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。