論文の概要: Efficient Transformers with Dynamic Token Pooling
- arxiv url: http://arxiv.org/abs/2211.09761v1
- Date: Thu, 17 Nov 2022 18:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:12:27.762251
- Title: Efficient Transformers with Dynamic Token Pooling
- Title(参考訳): 動的トークンポーリングを用いた効率的な変圧器
- Authors: Piotr Nawrot, Jan Chorowski, Adrian {\L}a\'ncucki, Edoardo M. Ponti
- Abstract要約: 言語モデルに動的プール機構を組み、セグメント境界を自己回帰的に予測する。
結果から,共同セグメントとモデル言語を用いた動的プーリングは,バニラトランスフォーマーよりも高速かつ高精度であることが判明した。
- 参考スコア(独自算出の注目度): 11.28381882347617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers achieve unrivalled performance in modelling language, but remain
inefficient in terms of memory and time complexity. A possible remedy is to
reduce the sequence length in the intermediate layers by pooling fixed-length
segments of tokens. Nevertheless, natural units of meaning, such as words or
phrases, display varying sizes. To address this mismatch, we equip language
models with a dynamic-pooling mechanism, which predicts segment boundaries in
an autoregressive fashion. We compare several methods to infer boundaries,
including end-to-end learning through stochastic re-parameterisation,
supervised learning (based on segmentations from subword tokenizers or spikes
in conditional entropy), as well as linguistically motivated boundaries. We
perform character-level evaluation on texts from multiple datasets and
morphologically diverse languages. The results demonstrate that dynamic
pooling, which jointly segments and models language, is often both faster and
more accurate than vanilla Transformers and fixed-length pooling within the
same computational budget.
- Abstract(参考訳): トランスフォーマーは、モデリング言語で非競合のパフォーマンスを達成するが、メモリと時間の複雑さの点で非効率である。
可能な修正は、トークンの固定長セグメントをプールすることで中間層のシーケンス長を削減することである。
それでも、言葉や句など、意味の自然な単位は、様々な大きさを示す。
このミスマッチに対処するため,自動回帰方式でセグメント境界を予測する動的プール機構を言語モデルに装備する。
確率的再パラメータ化によるエンドツーエンド学習、教師付き学習(サブワードトークン化や条件付きエントロピーのスパイクのセグメンテーションに基づく)、言語的に動機付けられた境界など、境界を推論するいくつかの手法を比較した。
複数のデータセットと形態学的に多様な言語からテキストを文字レベルで評価する。
その結果,同じ計算予算内で,バニラ変換器や固定長プーリングよりも高速かつ高精度な動的プーリングが可能となった。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Inducing Character-level Structure in Subword-based Language Models with
Type-level Interchange Intervention Training [36.19870483966741]
サブワードに基づく言語モデルの中で,ロバストで解釈可能な文字表現を学習するための因果介入フレームワークを開発した。
本手法は,各文字を因果モデルにおける型付き変数として扱い,そのような因果構造を学習する。
さらに、意味やシーケンスレベルの文脈に依存して体系的に変化する文字レベルのタスク群も導入する。
論文 参考訳(メタデータ) (2022-12-19T22:37:46Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Learning Multiscale Transformer Models for Sequence Generation [33.73729074207944]
単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。
特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2022-06-19T07:28:54Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。