論文の概要: Transformer Working Memory Enables Regular Language Reasoning and
Natural Language Length Extrapolation
- arxiv url: http://arxiv.org/abs/2305.03796v1
- Date: Fri, 5 May 2023 18:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:34:01.460928
- Title: Transformer Working Memory Enables Regular Language Reasoning and
Natural Language Length Extrapolation
- Title(参考訳): 正規言語推論と自然言語長補間を可能にするトランスフォーマーワーキングメモリ
- Authors: Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky and Peter J.
Ramadge
- Abstract要約: そこで我々はRegularGPTというトランスフォーマーの変種を提案する。
ウェイトシェア、アダプティブディープス、スライディングディレイテッド・アテンションの新たな組み合わせにより、RegularGPTは深さ次元に沿ってワーキングメモリを構成する。
自然言語長外挿作業においてRegularGPTを試験した結果,局所的な窓の注意効果を再検討することがわかった。
- 参考スコア(独自算出の注目度): 72.71398034617607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike recurrent models, conventional wisdom has it that Transformers cannot
perfectly model regular languages. Inspired by the notion of working memory, we
propose a new Transformer variant named RegularGPT. With its novel combination
of Weight-Sharing, Adaptive-Depth, and Sliding-Dilated-Attention, RegularGPT
constructs working memory along the depth dimension, thereby enabling efficient
and successful modeling of regular languages such as PARITY. We further test
RegularGPT on the task of natural language length extrapolation and
surprisingly find that it rediscovers the local windowed attention effect
deemed necessary in prior work for length extrapolation.
- Abstract(参考訳): リカレントモデルとは異なり、従来の知恵ではトランスフォーマーは正規言語を完全にモデル化することはできない。
ワーキングメモリの概念に触発されて、RegularGPTという新しいトランスフォーマー変種を提案する。
ウェイトシェア、アダプティブディープス、スライディングディレイテッド・アテンションの新たな組み合わせにより、RegularGPTは、深さ次元に沿ってワーキングメモリを構築し、PARITYのような正規言語を効率的かつうまくモデリングできるようにする。
自然言語長補間作業におけるRegularGPTのさらなるテストを行い、長さ補間作業に必要と思われる局所的な窓の注意効果を再検討した。
関連論文リスト
- Exploring the Impact of a Transformer's Latent Space Geometry on Downstream Task Performance [0.0]
事前学習の利点の多くは、潜在空間表現の幾何学的特徴によって捉えられる可能性がある。
量子化セル密度の測定値と平均GLUE性能との間には強い線形関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-18T00:17:30Z) - RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。
Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。
2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文 参考訳(メタデータ) (2024-04-11T15:27:22Z) - Extracting Definienda in Mathematical Scholarly Articles with
Transformers [0.0]
学術論文のテキストから数学的定義の中で定義項を自動的に識別することを検討する。
最近の(そして高価な) GPT 4 や、我々のタスクで微調整されたより単純な事前訓練モデルを用いて、高いレベルの精度に到達し、リコールすることが可能である。
論文 参考訳(メタデータ) (2023-11-21T08:58:57Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - Memory Augmented Large Language Models are Computationally Universal [44.64529266193095]
変換器をベースとした大規模言語モデルは,外部メモリで拡張した場合に計算的に普遍的であることを示す。
我々は,既存の大規模言語モデルであるFlan-U-PaLM 540Bと連想型読み書きメモリを組み合わせることで,汎用チューリングマシンの実行を正確にシミュレートできることを確認した。
論文 参考訳(メタデータ) (2023-01-10T02:37:44Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - On the Ability and Limitations of Transformers to Recognize Formal
Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。
トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文 参考訳(メタデータ) (2020-09-23T17:21:33Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。