論文の概要: Toucan: Token-Aware Character Level Language Modeling
- arxiv url: http://arxiv.org/abs/2311.08620v1
- Date: Wed, 15 Nov 2023 00:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:38:03.831859
- Title: Toucan: Token-Aware Character Level Language Modeling
- Title(参考訳): toucan:トークンを意識した文字レベルの言語モデリング
- Authors: William Fleshman and Benjamin Van Durme
- Abstract要約: トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
- 参考スコア(独自算出の注目度): 44.85590844938571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Character-level language models obviate the need for separately trained
tokenizers, but efficiency suffers from longer sequence lengths. Learning to
combine character representations into tokens has made training these models
more efficient, but they still require decoding characters individually. We
propose Toucan, an augmentation to character-level models to make them
"token-aware". Comparing our method to prior work, we demonstrate significant
speed-ups in character generation without a loss in language modeling
performance. We then explore differences between our learned dynamic
tokenization of character sequences with popular fixed vocabulary solutions
such as Byte-Pair Encoding and WordPiece, finding our approach leads to a
greater amount of longer sequences tokenized as single items. Our project and
code are available at https://nlp.jhu.edu/nuggets/.
- Abstract(参考訳): 文字レベルの言語モデルは、別々に訓練されたトークン化器の必要性を緩和するが、効率性は長いシーケンス長に悩まされる。
文字表現をトークンに結合する学習は、これらのモデルのトレーニングをより効率的にするが、個々の文字をデコードする必要がある。
toucanは,文字レベルのモデルに「認識」するための拡張である。
本手法と先行作業との比較により,言語モデリング性能を損なうことなく,文字生成の大幅な高速化を示す。
次に、Byte-Pair Encoding や WordPiece などの定型語彙ソリューションを用いた文字列の動的トークン化の学習結果の違いについて検討し、このアプローチが単一項目としてトークン化される長いシーケンスの量の増加につながることを明らかにする。
私たちのプロジェクトとコードはhttps://nlp.jhu.edu/nuggets/で利用可能です。
関連論文リスト
- LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。
符号化プロセス中に長いトークンを優先するLBPEを提案する。
多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-11-08T12:03:36Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。
最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。
本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文 参考訳(メタデータ) (2023-10-17T23:34:39Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。
これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-06T13:27:26Z) - Models In a Spelling Bee: Language Models Implicitly Learn the Character
Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。
モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文 参考訳(メタデータ) (2021-08-25T11:48:05Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。