論文の概要: Dispatcher: A Message-Passing Approach To Language Modelling
- arxiv url: http://arxiv.org/abs/2105.03994v1
- Date: Sun, 9 May 2021 18:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 03:56:17.981183
- Title: Dispatcher: A Message-Passing Approach To Language Modelling
- Title(参考訳): Dispatcher: 言語モデリングに対するメッセージパッシングアプローチ
- Authors: Alberto Cetoli
- Abstract要約: 自己注意の代替を目的とした新しいレイヤタイプが導入されている。
最終的に、Dispatcher層は以前の結果に匹敵する難易度を達成する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a message-passing mechanism to address language
modelling. A new layer type is introduced that aims to substitute
self-attention. The system is shown to be competitive with existing methods:
Given N tokens, the computational complexity is O(N log N) and the memory
complexity is O(N) under reasonable assumptions. In the end, the Dispatcher
layer is seen to achieve comparable perplexity to prior results while being
more efficient
- Abstract(参考訳): 本稿では,言語モデリングのためのメッセージパッシング機構を提案する。
自己注意の代替を目的とした新しいレイヤタイプが導入されている。
nトークンが与えられたとき、計算の複雑さはo(n log n)であり、メモリの複雑さは合理的な仮定の下でo(n)である。
最終的に、Dispatcher層は、より効率的でありながら、以前の結果と同等のパープレキシティを実現することができる。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Learning to Skip for Language Modeling [33.51322197222855]
言語モデルの事前訓練では、異なるトークンに可変量の計算を割り当てるべきである。
24個のNLPタスクに対して評価を行い,提案手法が1ショット性能を大幅に向上できることを示した。
論文 参考訳(メタデータ) (2023-11-26T21:45:53Z) - Syntax-Aware Complex-Valued Neural Machine Translation [14.772317918560548]
本稿では,構文情報を複合値デコーダアーキテクチャに組み込む手法を提案する。
提案モデルは,単語レベルと構文レベルのアテンションスコアを,アテンション機構を用いて,ソース側からターゲット側へ共同で学習する。
実験により,提案手法は2つのデータセット上でのBLEUスコアを大幅に改善できることを示した。
論文 参考訳(メタデータ) (2023-07-17T15:58:05Z) - Tokenization with Factorized Subword Encoding [2.538209532048867]
本稿では,VQ-VAEモデルを用いて,サブワードを離散三重項に分解する新しいトークン化手法を提案する。
その結果, この手法は, 一般的に使用されるバイトペア符号化(BPE)トークン化アルゴリズムよりも, 形態的タスクに適しており, 頑健であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T13:27:34Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - A text autoencoder from transformer for fast encoding language
representation [0.0]
本稿では,注目層におけるウィンドウマスキング機構を用いた双方向言語モデルを提案する。
この研究は、BERTのようにランダムマスキングなしで文脈言語表現を計算する。
提案手法は, O($n2$) の他の変圧器モデルと比較して O(n) の複雑性が低いことを示す。
論文 参考訳(メタデータ) (2021-11-04T13:09:10Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Exploring Neural Models for Parsing Natural Language into First-Order
Logic [10.62143644603835]
英文を1次論理(FOL)に解析する際のニューラルモデルの有用性について検討する。
自然言語文が与えられた場合のシーケンスマッピングタスクとしてFOL解析をモデル化し、LSTMを用いて中間表現に符号化し、次に対応するFOL式で述語を逐次生成するデコーダを用いる。
論文 参考訳(メタデータ) (2020-02-16T09:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。