Fugu-MT 論文翻訳(概要): Linear-Time WordPiece Tokenization

論文の概要: Linear-Time WordPiece Tokenization

arxiv url: http://arxiv.org/abs/2012.15524v1
Date: Thu, 31 Dec 2020 10:01:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-17 17:15:48.706183
Title: Linear-Time WordPiece Tokenization
Title（参考訳）: 線形時間WordPieceトークン化
Authors: Xinying Song, Alex Salcianu, Yang Song, Dave Dopson, Denny Zhou
Abstract要約: MaxMatchは、WordPieceトークン化のための長期マッチファーストトークン化戦略です。 MaxMatchとWordPieceトークン化のための新しい線形時間アルゴリズムであるLinMaxMatchを提案する。
参考スコア（独自算出の注目度）: 14.008336286659514
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: WordPiece tokenization is a subword-based tokenization schema adopted by BERT: it segments the input text via a longest-match-first tokenization strategy, known as Maximum Matching or MaxMatch. To the best of our knowledge, all published MaxMatch algorithms are quadratic (or higher). In this paper, we propose LinMaxMatch, a novel linear-time algorithm for MaxMatch and WordPiece tokenization. Inspired by the Aho-Corasick algorithm, we introduce additional linkages on top of the trie built from the vocabulary, allowing smart transitions when the trie matching cannot continue. Experimental results show that our algorithm is 3x faster on average than two production systems by HuggingFace and TensorFlow Text. Regarding long-tail inputs, our algorithm is 4.5x faster at the 95 percentile. This work has immediate practical value (reducing inference latency, saving compute resources, etc.) and is of theoretical interest by providing an optimal complexity solution to the decades-old MaxMatch problem.
Abstract（参考訳）: WordPieceトークン化(WordPieceトークン化)は、BERTで採用されているサブワードベースのトークン化スキーマである。私たちの知る限り、公開されたmaxmatchアルゴリズムはすべて二次的(あるいはそれ以上)である。本稿では,maxmatch と wordpiece のトークン化のための線形時間アルゴリズム linmaxmatch を提案する。 Aho-Corasickアルゴリズムにインスパイアされ、語彙から構築された三重項の上に追加のリンクを導入し、三重項マッチングが継続できないときのスマートな遷移を可能にする。実験の結果,HuggingFaceとTensorFlow Textの2つのプロダクションシステムよりも平均3倍高速であることがわかった。ロングテール入力に関しては、アルゴリズムは95%で4.5倍高速です。この作業には即時的な実用価値(推論遅延の低減、計算リソースの節約など)があります。そして、数十年前のMaxMatch問題に対して最適な複雑性ソリューションを提供することによって理論的に興味深い。

関連論文リスト

A partition cover approach to tokenization [27.739820344513088]
トークン化を最適化の目的として定式化し、単純なカバーの削減によるNPハードであることを示し、グレディアルゴリズムであるGreedTokを提案する。我々の定式化は、単純な$(1 - 1/e)$-approximationアルゴリズムであるGreedWMCを持つ、よく研究された最大重み付きカバレッジ問題に自然に緩和する。
論文参考訳（メタデータ） (2025-01-08T17:07:07Z)
Fast decision tree learning solves hard coding-theoretic problems [7.420043502440765]
我々は、Ehrenfeucht と Haussler のアルゴリズムの改善により、$k$-NCP に対して$O(log n)$-approximation アルゴリズムが得られることを示す。これは、$k$-NCPのアルゴリズムを設計するための新しい道、あるいはEhrenfeucht と Haussler のアルゴリズムの最適性を確立するための道と解釈できる。
論文参考訳（メタデータ） (2024-09-19T21:40:57Z)
Efficient Algorithms for Recognizing Weighted Tree-Adjoining Languages [104.90415092306219]
4つの形式は、ツリー随伴文法(TAG)、線形指数文法(LIG)、プッシュダウン随伴オートマトン(PAA)、組込みプッシュダウンオートマトン(EPDA)に相当する。我々は,文字列の導出量(文字列のすべてのオートマトン重み)と全導出量(全ての導出量重み)を計算するための新しいアルゴリズムを設計する。 EPDA の場合、我々のアルゴリズムは、$mathcalO(|Gamma|2)$ および $ の因子による Alonso et al. (2001) のアルゴリズムよりも空間効率と時間効率が良い。
論文参考訳（メタデータ） (2023-10-23T18:26:00Z)
SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文参考訳（メタデータ） (2023-10-23T17:47:34Z)
Breaking 3-Factor Approximation for Correlation Clustering in Polylogarithmic Rounds [0.23633885460047763]
相関クラスタリング問題に対する並列アルゴリズムについて検討する。目標は、エンティティをクラスタに分割し、ラベルとの相違を最小限にすることである。現在、全ての効率的な並列アルゴリズムは、近似比が少なくとも3である。 3 より優れた近似比を実現するための最初の多元対数アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-13T12:32:49Z)
Learning distributed representations with efficient SoftMax normalization [3.8673630752805437]
有界ノルムを持つ埋め込みベクトルに対して$rm SoftMax(XYT)$の正規化定数を計算する線形時間近似を提案する。本稿では,提案手法が競合手法よりも高い精度あるいは同等の精度を達成できるような事前学習した埋め込みデータセットについて述べる。提案アルゴリズムは解釈可能で,任意の埋め込み問題に容易に適応できる。
論文参考訳（メタデータ） (2023-03-30T15:48:26Z)
Efficient and Optimal Algorithms for Contextual Dueling Bandits under Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文参考訳（メタデータ） (2021-11-24T07:14:57Z)
Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文参考訳（メタデータ） (2021-06-14T16:05:58Z)
Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-07T08:00:02Z)
Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文参考訳（メタデータ） (2020-08-29T14:58:26Z)
Revisiting Modified Greedy Algorithm for Monotone Submodular Maximization with a Knapsack Constraint [75.85952446237599]
修正されたグリードアルゴリズムは、近似係数が0.305$であることを示す。最適なデータ依存上界を導出する。また、分岐やバウンドといったアルゴリズムの効率を大幅に改善するためにも使うことができる。
論文参考訳（メタデータ） (2020-08-12T15:40:21Z)
Learning to Accelerate Heuristic Searching for Large-Scale Maximum Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文参考訳（メタデータ） (2020-05-09T02:48:23Z)
Lagrangian Decomposition for Neural Network Verification [148.0448557991349]
ニューラルネットワーク検証の基本的なコンポーネントは、出力が取ることのできる値のバウンダリの計算である。ラグランジアン分解に基づく新しい手法を提案する。ランニングタイムのごく一部で、既成の解法に匹敵するバウンダリが得られることを示す。
論文参考訳（メタデータ） (2020-02-24T17:55:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。