論文の概要: CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation
- arxiv url: http://arxiv.org/abs/2103.06874v2
- Date: Mon, 15 Mar 2021 17:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 11:56:15.196071
- Title: CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation
- Title(参考訳): CANINE:言語表現のための効率的なトークン化フリーエンコーダの事前トレーニング
- Authors: Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting
- Abstract要約: CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。
CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
- 参考スコア(独自算出の注目度): 12.005340904206697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pipelined NLP systems have largely been superseded by end-to-end neural
modeling, yet nearly all commonly-used models still require an explicit
tokenization step. While recent tokenization approaches based on data-derived
subword lexicons are less brittle than manually engineered tokenizers, these
techniques are not equally suited to all languages, and the use of any fixed
vocabulary may limit a model's ability to adapt. In this paper, we present
CANINE, a neural encoder that operates directly on character sequences, without
explicit tokenization or vocabulary, and a pre-training strategy with soft
inductive biases in place of hard token boundaries. To use its finer-grained
input effectively and efficiently, CANINE combines downsampling, which reduces
the input sequence length, with a deep transformer stack, which encodes
context. CANINE outperforms a comparable mBERT model by >= 1 F1 on TyDi QA, a
challenging multilingual benchmark, despite having 28% fewer model parameters.
- Abstract(参考訳): パイプライン化されたNLPシステムは、主にエンドツーエンドのニューラルモデリングに取って代わられているが、一般的に使われているほとんどのモデルは、まだ明示的なトークン化ステップを必要とする。
データ由来のサブワードレキシコンに基づく最近のトークン化アプローチは手作業によるトークン化よりも脆くはないが、これらの手法はすべての言語に等しく適合せず、固定語彙の使用はモデルの適応能力を制限する可能性がある。
本稿では,明示的なトークン化や語彙を伴わず,文字列上で直接動作するニューラルネットワークエンコーダである canine と,ハードトークン境界の代わりにソフトインダクティブバイアスを持つ事前学習戦略を提案する。
微細な入力を効果的かつ効率的に使用するために、入力シーケンスの長さを減少させるダウンサンプリングと、コンテキストをエンコードするディープトランススタックを組み合わせる。
CANINEは、モデルパラメータが28%少ないにもかかわらず、TyDi QAにおいて、同等のmBERTモデルを >= 1 F1 で上回っている。
関連論文リスト
- Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Unleashing the Multilingual Encoder Potential: Boosting Zero-Shot
Performance via Probability Calibration [12.424785560515094]
事前訓練された多言語エンコーダモデルは、入力例をクローゼスタイルのプロンプトに変換することで、ゼロショット多言語タスクや言語探索を直接実行することができる。
この方法は,事前学習中に頻繁に発生するラベル単語の予測に対するモデルのバイアスによって制限される。
モデルによって予測されるラベル語の確率を変化させるキャリブレーション手法と組み合わせる。
論文 参考訳(メタデータ) (2023-10-08T08:31:05Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.532359202069063]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。
標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。
また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文 参考訳(メタデータ) (2021-05-28T07:03:22Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。