論文の概要: Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information
- arxiv url: http://arxiv.org/abs/2108.00391v1
- Date: Sun, 1 Aug 2021 08:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 07:43:51.051461
- Title: Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information
- Title(参考訳): 文字レベル情報を用いたトークンベースのエンコーダの強化
- Authors: Yuval Pinter, Amanda Stent, Mark Dredze, Jacob Eisenstein
- Abstract要約: XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 29.633735942273997
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Commonly-used transformer language models depend on a tokenization schema
which sets an unchangeable subword vocabulary prior to pre-training, destined
to be applied to all downstream tasks regardless of domain shift, novel word
formations, or other sources of vocabulary mismatch. Recent work has shown that
"token-free" models can be trained directly on characters or bytes, but
training these models from scratch requires substantial computational
resources, and this implies discarding the many domain-specific models that
were trained on tokens. In this paper, we present XRayEmb, a method for
retrofitting existing token-based models with character-level information.
XRayEmb is composed of a character-level "encoder" that computes vector
representations of character sequences, and a generative component that decodes
from the internal representation to a character sequence. We show that
incorporating XRayEmb's learned vectors into sequences of pre-trained token
embeddings helps performance on both autoregressive and masked pre-trained
transformer architectures and on both sequence-level and sequence tagging
tasks, particularly on non-standard English text.
- Abstract(参考訳): 一般的に使用されるトランスフォーマー言語モデルは、事前トレーニングの前に変更不能なサブワード語彙を設定するトークン化スキーマに依存しており、ドメインシフト、新規な単語形成、その他の語彙ミスマッチのソースに関係なく、すべての下流タスクに適用される。
近年の研究では、"token-free"モデルは文字やバイトで直接トレーニングできることが示されているが、これらのモデルをスクラッチからトレーニングするにはかなりの計算資源が必要である。
本稿では,既存のトークンベースモデルに文字レベルの情報を加える手法であるXRayEmbを提案する。
xrayembは、文字列のベクトル表現を計算する文字レベルの「エンコーダ」と、その内部表現から文字配列へ復号する生成成分から構成されている。
我々は,XRayEmbの学習ベクトルを事前学習したトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習型トランスフォーマーアーキテクチャ,およびシーケンシャルレベルおよびシーケンスタグタスク,特に非標準英語テキストの性能向上に役立つことを示す。
関連論文リスト
- Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。
これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-06T13:27:26Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.532359202069063]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。
標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。
また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文 参考訳(メタデータ) (2021-05-28T07:03:22Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。