論文の概要: Efficient Transformers with Dynamic Token Pooling
- arxiv url: http://arxiv.org/abs/2211.09761v2
- Date: Wed, 24 May 2023 17:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 02:49:41.375067
- Title: Efficient Transformers with Dynamic Token Pooling
- Title(参考訳): 動的トークンポーリングを用いた効率的な変圧器
- Authors: Piotr Nawrot, Jan Chorowski, Adrian {\L}a\'ncucki, Edoardo M. Ponti
- Abstract要約: 言語モデルに動的プール機構を組み、セグメント境界を自己回帰的に予測する。
その結果、動的プーリングはバニラ変換器よりも高速かつ高精度であることがわかった。
- 参考スコア(独自算出の注目度): 11.28381882347617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers achieve unrivalled performance in modelling language, but remain
inefficient in terms of memory and time complexity. A possible remedy is to
reduce the sequence length in the intermediate layers by pooling fixed-length
segments of tokens. Nevertheless, natural units of meaning, such as words or
phrases, display varying sizes. To address this mismatch, we equip language
models with a dynamic-pooling mechanism, which predicts segment boundaries in
an autoregressive fashion. We compare several methods to infer boundaries,
including end-to-end learning through stochastic re-parameterisation,
supervised learning (based on segmentations from subword tokenizers or spikes
in conditional entropy), as well as linguistically motivated boundaries. We
perform character-level evaluation on texts from multiple datasets and
morphologically diverse languages. The results demonstrate that dynamic
pooling, which jointly segments and models language, is both faster and more
accurate than vanilla Transformers and fixed-length pooling within the same
computational budget.
- Abstract(参考訳): トランスフォーマーは、モデリング言語で非競合のパフォーマンスを達成するが、メモリと時間の複雑さの点で非効率である。
可能な修正は、トークンの固定長セグメントをプールすることで中間層のシーケンス長を削減することである。
それでも、言葉や句など、意味の自然な単位は、様々な大きさを示す。
このミスマッチに対処するため,自動回帰方式でセグメント境界を予測する動的プール機構を言語モデルに装備する。
確率的再パラメータ化によるエンドツーエンド学習、教師付き学習(サブワードトークン化や条件付きエントロピーのスパイクのセグメンテーションに基づく)、言語的に動機付けられた境界など、境界を推論するいくつかの手法を比較した。
複数のデータセットと形態学的に多様な言語からテキストを文字レベルで評価する。
その結果,同じ計算予算内で,バニラ変換器や固定長プーリングよりも高速かつ高精度な動的プーリングが可能となった。
関連論文リスト
- Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic
Parsing [49.51186562384306]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
インプットテキストの分析に基づいて、インプットまたは微調整された言語モデルの制約付き復号化によって意味的な出力を生成する。
提案するベンチマークでは,インプロンプトベース学習と微調整の両方をサポートし,言語モデル開発者がセマンティック解析で評価できる使いやすいツールキットを提供する。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。
特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2022-06-19T07:28:54Z) - Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文 参考訳(メタデータ) (2022-05-05T14:23:27Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。