Fugu-MT 論文翻訳(概要): Toucan: Token-Aware Character Level Language Modeling

論文の概要: Toucan: Token-Aware Character Level Language Modeling

arxiv url: http://arxiv.org/abs/2311.08620v1
Date: Wed, 15 Nov 2023 00:57:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 17:38:03.831859
Title: Toucan: Token-Aware Character Level Language Modeling
Title（参考訳）: toucan:トークンを意識した文字レベルの言語モデリング
Authors: William Fleshman and Benjamin Van Durme
Abstract要約: トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
参考スコア（独自算出の注目度）: 44.85590844938571
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Character-level language models obviate the need for separately trained tokenizers, but efficiency suffers from longer sequence lengths. Learning to combine character representations into tokens has made training these models more efficient, but they still require decoding characters individually. We propose Toucan, an augmentation to character-level models to make them "token-aware". Comparing our method to prior work, we demonstrate significant speed-ups in character generation without a loss in language modeling performance. We then explore differences between our learned dynamic tokenization of character sequences with popular fixed vocabulary solutions such as Byte-Pair Encoding and WordPiece, finding our approach leads to a greater amount of longer sequences tokenized as single items. Our project and code are available at https://nlp.jhu.edu/nuggets/.
Abstract（参考訳）: 文字レベルの言語モデルは、別々に訓練されたトークン化器の必要性を緩和するが、効率性は長いシーケンス長に悩まされる。文字表現をトークンに結合する学習は、これらのモデルのトレーニングをより効率的にするが、個々の文字をデコードする必要がある。 toucanは,文字レベルのモデルに「認識」するための拡張である。本手法と先行作業との比較により,言語モデリング性能を損なうことなく,文字生成の大幅な高速化を示す。次に、Byte-Pair Encoding や WordPiece などの定型語彙ソリューションを用いた文字列の動的トークン化の学習結果の違いについて検討し、このアプローチが単一項目としてトークン化される長いシーケンスの量の増加につながることを明らかにする。私たちのプロジェクトとコードはhttps://nlp.jhu.edu/nuggets/で利用可能です。

関連論文リスト

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、内部的、数学的には、エンファラクタ文字列ではなくトークン文字列上の分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。符号化プロセス中に長いトークンを優先するLBPEを提案する。多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文参考訳（メタデータ） (2024-11-08T12:03:36Z)
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-07T17:52:56Z)
Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文参考訳（メタデータ） (2024-01-20T20:55:21Z)
Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文参考訳（メタデータ） (2023-11-14T02:09:10Z)
Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文参考訳（メタデータ） (2023-10-17T23:34:39Z)
Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文参考訳（メタデータ） (2023-05-17T14:17:57Z)
What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2022-06-06T13:27:26Z)
Models In a Spelling Bee: Language Models Implicitly Learn the Character Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文参考訳（メタデータ） (2021-08-25T11:48:05Z)
More Than Words: Collocation Tokenization for Latent Dirichlet Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文参考訳（メタデータ） (2021-08-24T14:08:19Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)
SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。 SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文参考訳（メタデータ） (2021-06-01T11:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。