論文の概要: Unsupervised Tokenization Learning
- arxiv url: http://arxiv.org/abs/2205.11443v1
- Date: Mon, 23 May 2022 16:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:07:23.419217
- Title: Unsupervised Tokenization Learning
- Title(参考訳): 教師なしトークン化学習
- Authors: Anton Kolonin
- Abstract要約: 異なる言語はトークン化を成功させるためにその計量の異なる微分を必要とする。
提案された非教師付きトークン化技術は、言語によっては、レキシコンベースのものよりも、あるいは同等の品質を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the presented study, we discover that so called "transition freedom"
metric appears superior for unsupervised tokenization purposes, compared to
statistical metrics such as mutual information and conditional probability,
providing F-measure scores in range from 0.71 to 1.0 across explored corpora.
We find that different languages require different derivatives of that metric
(such as variance and "peak values") for successful tokenization. Larger
training corpora does not necessarily effect in better tokenization quality,
while compacting the models eliminating statistically weak evidence tends to
improve performance. Proposed unsupervised tokenization technique provides
quality better or comparable to lexicon-based one, depending on the language.
- Abstract(参考訳): 本研究では、相互情報や条件付き確率などの統計指標と比較して、いわゆる「遷移自由度」は、探索されたコーパス全体で0.71から1.0の範囲でF測定スコアを提供するのに対し、教師なしトークン化の目的において優れていることを示す。
異なる言語はトークン化を成功させるためにその計量の異なる微分(分散や「ピーク値」など)を必要とする。
より大規模なトレーニングコーパスはより良いトークン化品質に必ずしも影響を及ぼさないが、統計的に弱い証拠を排除したモデルをコンパクト化することで性能が向上する傾向がある。
提案された教師なしトークン化技術は、言語によって、品質が向上または同等になる。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Conformal Credal Self-Supervised Learning [7.170735702082675]
半教師付き学習において、自己学習のパラダイムとは、学習者自身が提案する擬似ラベルから学習することを指す。
そのような方法の1つは、いわゆるクレダル自己教師学習であり、ラベル上の(単体ではなく)確率分布の集合の形で擬超越性を維持している。
論文 参考訳(メタデータ) (2022-05-30T16:53:16Z) - Understanding and Mitigating the Uncertainty in Zero-Shot Translation [92.25357943169601]
ゼロショット翻訳の不確実性の観点から、オフターゲット問題を理解し、緩和することを目的としている。
そこで本研究では,モデルトレーニングのためのトレーニングデータを認知するための,軽量かつ補完的な2つのアプローチを提案する。
提案手法は,強いMNMTベースライン上でのゼロショット翻訳の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-20T10:29:46Z) - Conditional Bilingual Mutual Information Based Adaptive Training for
Neural Machine Translation [66.23055784400475]
トークンレベルの適応トレーニングアプローチはトークンの不均衡問題を緩和することができる。
条件付きバイリンガル相互情報(CBMI)という目標コンテキスト対応メトリックを提案する。
CBMIは、事前の統計計算なしで、モデルトレーニング中に効率的に計算することができる。
論文 参考訳(メタデータ) (2022-03-06T12:34:10Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Boosting Cross-Lingual Transfer via Self-Learning with Uncertainty
Estimation [34.97086123805344]
最近の多言語事前訓練型言語モデルは、目覚ましいゼロショット性能を実現している。
対象言語のラベルのないデータをさらに活用する自己学習フレームワークを提案する。
我々は,NER(Nond Entity Recognition)とNLI(Natural Language Inference)の2つの言語間タスクについて,40言語を網羅した不確実性で評価した。
論文 参考訳(メタデータ) (2021-09-01T05:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。