論文の概要: Two Counterexamples to \textit{Tokenization and the Noiseless Channel}
- arxiv url: http://arxiv.org/abs/2402.14614v1
- Date: Thu, 22 Feb 2024 15:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:56:14.178834
- Title: Two Counterexamples to \textit{Tokenization and the Noiseless Channel}
- Title(参考訳): textit{tokenization and the noiseless channel}に対する2つの反例
- Authors: Marco Cognetta and Vil\'em Zouhar and Sangwhan Moon and Naoaki Okazaki
- Abstract要約: R'enyi効率は、トークン化剤を評価するための本質的なメカニズムとして提案されている。
NLPタスクでは、ユニグラム分布の最も高いR'enyi効率につながるトークン化器を選択する必要がある。
下流モデルの性能を低下させながらR'enyi効率を任意に向上させるBPEトークン化の2つの変種について述べる。
- 参考スコア(独自算出の注目度): 24.127593302335164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In \textit{Tokenization and the Noiseless Channel}
\cite{zouhar-etal-2023-tokenization}, R\'enyi efficiency is suggested as an
intrinsic mechanism for evaluating a tokenizer: for NLP tasks, the tokenizer
which leads to the highest R\'enyi efficiency of the unigram distribution
should be chosen. The R\'enyi efficiency is thus treated as a predictor of
downstream performance (e.g., predicting BLEU for a machine translation task),
without the expensive step of training multiple models with different
tokenizers. Although useful, the predictive power of this metric is not
perfect, and the authors note there are additional qualities of a good
tokenization scheme that R\'enyi efficiency alone cannot capture.
We describe two variants of BPE tokenization which can arbitrarily increase
R\'enyi efficiency while decreasing the downstream model performance. These
counterexamples expose cases where R\'enyi efficiency fails as an intrinsic
tokenization metric and thus give insight for building more accurate
predictors.
- Abstract(参考訳): textit{tokenization and the noiseless channel} \cite{zouhar-etal-2023-tokenization} では、r\'enyi 効率はトークン化子を評価するための本質的なメカニズムとして提案されている。
したがって、R'enyi効率は、異なるトークン化器で複数のモデルをトレーニングするコストのかかるステップなしで、下流のパフォーマンスの予測(例えば、機械翻訳タスクのBLEUを予測する)として扱われる。
有用ではあるが、この計量の予測力は完全ではなく、著者らはR'enyi効率だけでは達成できない優れたトークン化スキームのさらなる性質があることを指摘している。
下流モデルの性能を低下させながらR'enyi効率を任意に向上させるBPEトークン化の2つのバリエーションについて述べる。
これらの反例は、R\'enyi効率が固有のトークン化計量として失敗するケースを明らかにし、より正確な予測器を構築するための洞察を与える。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Target Variable Engineering [0.0]
数値的対象を予測するために訓練された回帰モデルの予測性能と、2項化対象を予測するために訓練された分類器を比較した。
回帰は最適性能に収束するためには、はるかに多くの計算作業を必要とする。
論文 参考訳(メタデータ) (2023-10-13T23:12:21Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Efficient Black-Box Importance Sampling for VaR and CVaR Estimation [0.0]
本稿では,機械学習機能マップなどの高度なオブジェクトから定義された損失のテールリスクを推定するためのImportance Smpling(IS)について考察する。
本稿では,リスクにおける価値とリスクにおける条件的価値を推定するための効率的なISを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:29:11Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z) - Gaussian Process Boosting [6.85316573653194]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文 参考訳(メタデータ) (2020-04-06T13:19:54Z) - Amortized variance reduction for doubly stochastic objectives [17.064916635597417]
複素確率モデルにおける近似推論は二重目的関数の最適化を必要とする。
現在のアプローチでは、ミニバッチがサンプリング性にどのように影響するかを考慮せず、結果として準最適分散が減少する。
本稿では,認識ネットワークを用いて各ミニバッチに対して最適な制御変数を安価に近似する手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。