論文の概要: Tokenization and the Noiseless Channel
- arxiv url: http://arxiv.org/abs/2306.16842v1
- Date: Thu, 29 Jun 2023 10:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 13:46:57.164763
- Title: Tokenization and the Noiseless Channel
- Title(参考訳): トークン化とノイズなしチャネル
- Authors: Vil\'em Zouhar, Clara Meister, Juan Luis Gastaldi, Li Du, Mrinmaya
Sachan, Ryan Cotterell
- Abstract要約: 優れたトークン化器は、ある入力がモデルに伝達される手段であるチャネルの使用率を高める。
機械翻訳では、複数のトークン化器において、$alpha = 2.5$のR'enyiエントロピーがtextscBleu: $0.78$と非常に強い相関を持つことがわかった。
- 参考スコア(独自算出の注目度): 71.25796813073399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword tokenization is a key part of many NLP pipelines. However, little is
known about why some tokenizer and hyperparameter combinations lead to better
downstream model performance than others. We propose that good tokenizers lead
to \emph{efficient} channel usage, where the channel is the means by which some
input is conveyed to the model and efficiency can be quantified in
information-theoretic terms as the ratio of the Shannon entropy to the maximum
possible entropy of the token distribution. Yet, an optimal encoding according
to Shannon entropy assigns extremely long codes to low-frequency tokens and
very short codes to high-frequency tokens. Defining efficiency in terms of
R\'enyi entropy, on the other hand, penalizes distributions with either very
high or very low-frequency tokens. In machine translation, we find that across
multiple tokenizers, the R\'enyi entropy with $\alpha = 2.5$ has a very strong
correlation with \textsc{Bleu}: $0.78$ in comparison to just $-0.32$ for
compressed length.
- Abstract(参考訳): サブワードトークン化は多くのNLPパイプラインの重要な部分である。
しかしながら、トークンライザとハイパーパラメータの組み合わせによって、下流モデルのパフォーマンスが他のものよりも向上する理由については、ほとんど分かっていない。
そこで, 優れたトークン化器は, ある入力をモデルに伝達する手段であり, トークン分布の最大エントロピーに対するシャノンエントロピーの比として, 情報理論の用語で効率を定量化することができる。
しかし、シャノンエントロピーによる最適符号化は、非常に長い符号を低周波トークンに、非常に短い符号を高周波トークンに割り当てる。
一方、r\'enyiエントロピーの観点で効率を定義すると、非常に高いまたは非常に低い周波数のトークンを持つ分布をペナルティ化する。
機械翻訳において、R'enyiエントロピーと$\alpha = 2.5$は、圧縮された長さに対してわずか$-0.32$に対して$0.78$と非常に強い相関を持つ。
関連論文リスト
- Deterministic identification over channels with finite output: a
dimensional perspective on superlinear rates [53.66705737169404]
有限出力であるが任意の入力アルファベットを持つメモリレスチャネルに対する一般性の問題を考える。
主な発見は、それによって特定可能なメッセージの最大数は、ブロック長が$n$の2R,nlog n$と超指数的にスケールすることです。
結果は、有限次元の出力量子系を持つ古典量子チャネルに直接一般化することが示されている。
論文 参考訳(メタデータ) (2024-02-14T11:59:30Z) - The closed-branch decoder for quantum LDPC codes [0.0]
実時間復号化は論理レベルで任意の量子計算を実装する上で必要である。
本稿では,量子低密度パリティチェック(QLDPC)のための新しいデコーダを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:22:32Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - A lower bound on the space overhead of fault-tolerant quantum computation [51.723084600243716]
しきい値定理は、フォールトトレラント量子計算の理論における基本的な結果である。
振幅雑音を伴う耐故障性量子計算の最大長に対する指数的上限を証明した。
論文 参考訳(メタデータ) (2022-01-31T22:19:49Z) - Random quantum circuits transform local noise into global white noise [118.18170052022323]
低忠実度状態におけるノイズランダム量子回路の測定結果の分布について検討する。
十分に弱くユニタリな局所雑音に対して、一般的なノイズ回路インスタンスの出力分布$p_textnoisy$間の相関(線形クロスエントロピーベンチマークで測定)は指数関数的に減少する。
ノイズが不整合であれば、出力分布は、正確に同じ速度で均一分布の$p_textunif$に近づく。
論文 参考訳(メタデータ) (2021-11-29T19:26:28Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation [12.005340904206697]
CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。
CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
論文 参考訳(メタデータ) (2021-03-11T18:57:44Z) - Quantum coding with low-depth random circuits [2.4201087215689947]
我々は、局所接続を持つ低深さランダム回路のアンサンブルを用いて、量子誤り訂正符号を生成する。
ランダム安定化器符号や消去チャネルの場合、深さ$O(log N)$ランダム回路が必要であるという強い証拠が得られます。
これらの結果は、有限レート量子符号が近距離デバイスに実質的に関係していることを示している。
論文 参考訳(メタデータ) (2020-10-19T18:25:30Z) - From Information Theory Puzzles in Deletion Channels to Deniability in
Quantum Cryptography [0.0]
まず、実験データに基づいて、後部のエントロピーが定数列によって最小化されることを予想する。
次に,DC-QKEを提案するために,隠蔽通信とデニビリティの接続を確立する。
完全ホモモルフィック暗号をベースとした,効率的な耐保磁・量子セキュリティ投票方式を提案する。
論文 参考訳(メタデータ) (2020-03-25T22:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。