論文の概要: Transformer Feed-Forward Layers Build Predictions by Promoting Concepts
in the Vocabulary Space
- arxiv url: http://arxiv.org/abs/2203.14680v1
- Date: Mon, 28 Mar 2022 12:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:24:36.894308
- Title: Transformer Feed-Forward Layers Build Predictions by Promoting Concepts
in the Vocabulary Space
- Title(参考訳): 語彙空間における概念の促進によるトランスフォーマーフィードフォワード層構築予測
- Authors: Mor Geva, Avi Caciularu, Kevin Ro Wang, Yoav Goldberg
- Abstract要約: トランスフォーマーベース言語モデル(LM)は現代のNLPの中核にあるが、内部予測構築プロセスは不透明であり、ほとんど理解されていない。
我々は、フィードフォワードネットワーク(FFN)層の動作をリバースエンジニアリングすることで、この基盤となる予測プロセスの公開に向けて大きな一歩を踏み出した。
- 参考スコア(独自算出の注目度): 49.029910567673824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) are at the core of modern NLP, but
their internal prediction construction process is opaque and largely not
understood. In this work, we make a substantial step towards unveiling this
underlying prediction process, by reverse-engineering the operation of the
feed-forward network (FFN) layers, one of the building blocks of transformer
models. We view the token representation as a changing distribution over the
vocabulary, and the output from each FFN layer as an additive update to that
distribution. Then, we analyze the FFN updates in the vocabulary space, showing
that each update can be decomposed to sub-updates corresponding to single FFN
parameter vectors, each promoting concepts that are often human-interpretable.
We then leverage these findings for controlling LM predictions, where we reduce
the toxicity of GPT2 by almost 50%, and for improving computation efficiency
with a simple early exit rule, saving 20% of computation on average.
- Abstract(参考訳): トランスフォーマーベース言語モデル(LM)は現代のNLPの中核であるが、内部予測構築プロセスは不透明であり、ほとんど理解されていない。
本研究では,トランスモデルのビルディングブロックであるフィードフォワードネットワーク(FFN)層の動作をリバースエンジニアリングすることで,この基盤となる予測プロセスを明らかにするための重要なステップを示す。
トークン表現は語彙上の変化した分布であり,各ffn層からの出力はその分布に対する付加的な更新であると考える。
次に、語彙空間におけるFFN更新を分析し、各更新を1つのFFNパラメータベクトルに対応するサブアップデートに分解できることを示し、それぞれが人間解釈可能な概念を促進する。
次に、これらの知見をLM予測の制御に利用し、GPT2の毒性を50%近く低減し、簡単な早期終了ルールで計算効率を向上し、計算の20%を平均で節約する。
関連論文リスト
- Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials [27.573329030086676]
本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-14T13:42:57Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - Jump to Conclusions: Short-Cutting Transformers With Linear Transformations [60.37563766047492]
トランスフォーマーベースの言語モデルは、各層で入力の隠れ表現を生成するが、予測には最終層表現のみを使用する。
これは、モデルの内部決定過程と、その中間表現の有用性を曖昧にする。
線形変換を用いた簡単な鋳造法を提案する。
論文 参考訳(メタデータ) (2023-03-16T16:10:16Z) - Towards Opening the Black Box of Neural Machine Translation: Source and
Target Interpretations of the Transformer [1.8594711725515678]
ニューラルネットワーク翻訳(NMT)では、各トークン予測はソース文とターゲットプレフィックスに条件付けされる。
NMTにおける解釈可能性に関するこれまでの研究は、原文トークンの属性のみに焦点を当ててきた。
本稿では,完全な入力トークン属性を追跡する解釈可能性手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T20:59:14Z) - Transkimmer: Transformer Learns to Layer-wise Skim [17.188613474427054]
Transformerベースのモデルの主要な計算非効率の1つは、すべての層で同じ量の計算に費やしていることである。
本稿では,レイヤ毎に不要な隠れ状態トークンを識別するTranskimmerアーキテクチャを提案する。
スキミングされたトークンは直接最終出力に転送され、連続するレイヤの計算が削減される。
論文 参考訳(メタデータ) (2022-05-15T16:23:30Z) - Consistent Accelerated Inference via Confident Adaptive Transformers [29.034390810078172]
我々は,大規模で高価な多層トランスの推論を確実に高速化する新しい手法を開発した。
また,本モデルとの確固たる一貫性を高い信頼度で保証しつつ,計算効率を向上させる。
このアプローチの有効性を4つの分類および回帰タスクで実証する。
論文 参考訳(メタデータ) (2021-04-18T10:22:28Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。