論文の概要: Tokenization and the Noiseless Channel
- arxiv url: http://arxiv.org/abs/2306.16842v1
- Date: Thu, 29 Jun 2023 10:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-06-30 13:46:57.164763
- Title: Tokenization and the Noiseless Channel
- Title(参考訳): トークン化とノイズなしチャネル
- Authors: Vil\'em Zouhar, Clara Meister, Juan Luis Gastaldi, Li Du, Mrinmaya
Sachan, Ryan Cotterell
- Abstract要約: 優れたトークン化器は、ある入力がモデルに伝達される手段であるチャネルの使用率を高める。
機械翻訳では、複数のトークン化器において、$alpha = 2.5$のR'enyiエントロピーがtextscBleu: $0.78$と非常に強い相関を持つことがわかった。
- 参考スコア(独自算出の注目度): 71.25796813073399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword tokenization is a key part of many NLP pipelines. However, little is
known about why some tokenizer and hyperparameter combinations lead to better
downstream model performance than others. We propose that good tokenizers lead
to \emph{efficient} channel usage, where the channel is the means by which some
input is conveyed to the model and efficiency can be quantified in
information-theoretic terms as the ratio of the Shannon entropy to the maximum
possible entropy of the token distribution. Yet, an optimal encoding according
to Shannon entropy assigns extremely long codes to low-frequency tokens and
very short codes to high-frequency tokens. Defining efficiency in terms of
R\'enyi entropy, on the other hand, penalizes distributions with either very
high or very low-frequency tokens. In machine translation, we find that across
multiple tokenizers, the R\'enyi entropy with $\alpha = 2.5$ has a very strong
correlation with \textsc{Bleu}: $0.78$ in comparison to just $-0.32$ for
compressed length.
- Abstract(参考訳): サブワードトークン化は多くのNLPパイプラインの重要な部分である。
しかしながら、トークンライザとハイパーパラメータの組み合わせによって、下流モデルのパフォーマンスが他のものよりも向上する理由については、ほとんど分かっていない。
そこで, 優れたトークン化器は, ある入力をモデルに伝達する手段であり, トークン分布の最大エントロピーに対するシャノンエントロピーの比として, 情報理論の用語で効率を定量化することができる。
しかし、シャノンエントロピーによる最適符号化は、非常に長い符号を低周波トークンに、非常に短い符号を高周波トークンに割り当てる。
一方、r\'enyiエントロピーの観点で効率を定義すると、非常に高いまたは非常に低い周波数のトークンを持つ分布をペナルティ化する。
機械翻訳において、R'enyiエントロピーと$\alpha = 2.5$は、圧縮された長さに対してわずか$-0.32$に対して$0.78$と非常に強い相関を持つ。
関連論文リスト
- CODA: Repurposing Continuous VAEs for Discrete Tokenization [52.58960429582813]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - Sign Operator for Coping with Heavy-Tailed Noise: High Probability Convergence Bounds with Extensions to Distributed Optimization and Comparison Oracle [77.3806516979843]
SignSGDは, 高い精度で, 最適な試料量$tildeO(varepsilon-frac3kappa - 2kappa 1right)を達成できることを示す。
また、2つの異なる点における関数値を比較することしかできないオラクルを用いて、符号演算子のゼロ階最適化への応用についても検討する。
論文 参考訳(メタデータ) (2025-02-11T19:54:11Z) - ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - HashAttention: Semantic Sparsity for Faster Inference [91.54218318798603]
HashAttentionは、推奨問題としてピボットトークンの識別をキャストする原則的なアプローチである。
ビットワイズ演算を用いて、このハミング空間における所定のクエリに対する重要なトークンを効率的に識別する。
これはLongBenchとLlama-3.1-8Bモデルの1/32times$で使用されるトークンの数を減らすことができる。
論文 参考訳(メタデータ) (2024-12-19T02:34:15Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - Some Notes on the Sample Complexity of Approximate Channel Simulation [2.4554686192257424]
チャネルシミュレーションアルゴリズムは、所定のターゲット分布のランダムサンプルを$Q$で効率的にエンコードし、機械学習ベースの損失データ圧縮における応用を見つけることができる。
本稿では,固定ランタイムを用いた近似スキームについて考察する。
D_KL[Q Vert P] + o(1)) Big/epsilonbigのみのサンプル複雑さで、$mathrmTV[Q Vert P] leq epsilon$を確保し、最適な符号化性能を維持するために、グローバルバウンドの深度制限A*符号化を利用する。
論文 参考訳(メタデータ) (2024-05-07T14:44:41Z) - The closed-branch decoder for quantum LDPC codes [0.0]
実時間復号化は論理レベルで任意の量子計算を実装する上で必要である。
本稿では,量子低密度パリティチェック(QLDPC)のための新しいデコーダを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:22:32Z) - A lower bound on the space overhead of fault-tolerant quantum computation [51.723084600243716]
しきい値定理は、フォールトトレラント量子計算の理論における基本的な結果である。
振幅雑音を伴う耐故障性量子計算の最大長に対する指数的上限を証明した。
論文 参考訳(メタデータ) (2022-01-31T22:19:49Z) - Random quantum circuits transform local noise into global white noise [118.18170052022323]
低忠実度状態におけるノイズランダム量子回路の測定結果の分布について検討する。
十分に弱くユニタリな局所雑音に対して、一般的なノイズ回路インスタンスの出力分布$p_textnoisy$間の相関(線形クロスエントロピーベンチマークで測定)は指数関数的に減少する。
ノイズが不整合であれば、出力分布は、正確に同じ速度で均一分布の$p_textunif$に近づく。
論文 参考訳(メタデータ) (2021-11-29T19:26:28Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation [12.005340904206697]
CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。
CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
論文 参考訳(メタデータ) (2021-03-11T18:57:44Z) - From Information Theory Puzzles in Deletion Channels to Deniability in
Quantum Cryptography [0.0]
まず、実験データに基づいて、後部のエントロピーが定数列によって最小化されることを予想する。
次に,DC-QKEを提案するために,隠蔽通信とデニビリティの接続を確立する。
完全ホモモルフィック暗号をベースとした,効率的な耐保磁・量子セキュリティ投票方式を提案する。
論文 参考訳(メタデータ) (2020-03-25T22:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。