Fugu-MT 論文翻訳(概要): Multi-scale Transformer Language Models

論文の概要: Multi-scale Transformer Language Models

arxiv url: http://arxiv.org/abs/2005.00581v1
Date: Fri, 1 May 2020 19:58:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 23:01:09.024600
Title: Multi-scale Transformer Language Models
Title（参考訳）: マルチスケールトランスフォーマー言語モデル
Authors: Sandeep Subramanian, Ronan Collobert, Marc'Aurelio Ranzato, Y-Lan Boureau
Abstract要約: テキストの表現を複数スケールで学習するマルチスケールトランスフォーマー言語モデルについて検討する。言語の階層的な性質を扱うために,帰納的バイアスを持つ3つの異なるアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 30.201934597815583
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate multi-scale transformer language models that learn representations of text at multiple scales, and present three different architectures that have an inductive bias to handle the hierarchical nature of language. Experiments on large-scale language modeling benchmarks empirically demonstrate favorable likelihood vs memory footprint trade-offs, e.g. we show that it is possible to train a hierarchical variant with 30 layers that has 23% smaller memory footprint and better perplexity, compared to a vanilla transformer with less than half the number of layers, on the Toronto BookCorpus. We analyze the advantages of learned representations at multiple scales in terms of memory footprint, compute time, and perplexity, which are particularly appealing given the quadratic scaling of transformers' run time and memory usage with respect to sequence length.
Abstract（参考訳）: 本研究では,複数スケールのテキスト表現を学習するマルチスケールトランスフォーマー言語モデルを調査し,言語の階層的性質を扱うための帰納的バイアスを持つ3つの異なるアーキテクチャを提案する。例えば、トロント・ブックコーパスのバニラトランスに比べて、メモリフットプリントが23%小さく、パープレキシティが向上した30層からなる階層型変種をトレーニングできることが示されている。本稿では, メモリフットプリント, 計算時間, パープレキシティの観点から, 複数のスケールでの学習表現の利点を解析し, シークエンス長に対するトランスフォーマーの実行時間とメモリ使用量の2次スケーリングを考えると, 特に魅力的である。

関連論文リスト

StackTrans: From Large Language Model to Large Pushdown Automata Model [63.37860663635374]
Transformerアーキテクチャは、人工知能の幅広い分野において目覚ましい進歩として現れてきた。大規模言語モデル(LLM)の問題を解決するためにStackTransを提案する。注意計算を変更する従来のアプローチとは異なり、StackTransはトランスフォーマー層間で隠された状態スタックを明示的に組み込んでいる。
論文参考訳（メタデータ） (2025-07-21T07:58:03Z)
How Redundant Is the Transformer Stack in Speech Representation Models? [1.3873323883842132]
自己教師付き音声表現モデルは、音声認識、話者識別、感情検出など様々なタスクにおいて顕著な性能を示した。近年, 変圧器モデルの研究により, 層間に高い冗長性と, 重要な刈り取りの可能性が確認されている。後処理を必要とせず,変換器を用いた音声表現モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-09-10T11:00:24Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文参考訳（メタデータ） (2023-11-14T12:37:25Z)
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。 CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-09-05T21:27:27Z)
Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文参考訳（メタデータ） (2022-06-19T07:28:54Z)
Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。 2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文参考訳（メタデータ） (2021-12-08T17:32:34Z)
Hierarchical Transformers Are More Efficient Language Models [19.061388006885686]
トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。注目すべきは、Transformerは長いシーケンスを処理でき、長いコヒーレントな出力を生成することができることだ。我々は、長いシーケンスを効率的に処理するトランスフォーマーの鍵は、明示的な階層アーキテクチャを持つことにあると仮定する。
論文参考訳（メタデータ） (2021-10-26T14:00:49Z)
Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文参考訳（メタデータ） (2021-07-05T18:00:14Z)
SML: a new Semantic Embedding Alignment Transformer for efficient cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。 nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文参考訳（メタデータ） (2021-03-17T13:23:53Z)
Adaptive Semiparametric Language Models [17.53604394786977]
本稿では,大規模パラメトリックニューラルネットワーク(トランスフォーマー)と非パラメトリックエピソードメモリコンポーネントを組み合わせた言語モデルを提案する。単語ベースおよび文字ベース言語モデリングデータセットの実験により,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-02-04T11:47:03Z)
Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文参考訳（メタデータ） (2020-06-20T09:06:27Z)
Segatron: Segment-Aware Transformer for Language Modeling and Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。 WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文参考訳（メタデータ） (2020-04-30T17:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。