論文の概要: What do tokens know about their characters and how do they know it?
- arxiv url: http://arxiv.org/abs/2206.02608v1
- Date: Mon, 6 Jun 2022 13:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 22:02:01.766182
- Title: What do tokens know about their characters and how do they know it?
- Title(参考訳): トークンはキャラクタについて何を知っているのか、どうやってそれを知っているのか?
- Authors: Ayush Kaushal, Kyle Mahowald
- Abstract要約: サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。
これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 3.8254443661593633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) that use subword tokenization schemes can
succeed at a variety of language tasks that require character-level
information, despite lacking explicit access to the character composition of
tokens. Here, studying a range of models (e.g., GPT- J, BERT, RoBERTa, GloVe),
we probe what word pieces encode about character-level information by training
classifiers to predict the presence or absence of a particular alphabetical
character in a token, based on its embedding (e.g., probing whether the model
embedding for "cat" encodes that it contains the character "a"). We find that
these models robustly encode character-level information and, in general,
larger models perform better at the task. We show that these results generalize
to characters from non-Latin alphabets (Arabic, Devanagari, and Cyrillic).
Then, through a series of experiments and analyses, we investigate the
mechanisms through which PLMs acquire English-language character information
during training and argue that this knowledge is acquired through multiple
phenomena, including a systematic relationship between particular characters
and particular parts of speech, as well as natural variability in the
tokenization of related strings.
- Abstract(参考訳): サブワードトークン化スキームを使用する事前訓練された言語モデル(PLM)は、トークンの文字構成に明示的にアクセスできないにもかかわらず、文字レベルの情報を必要とする様々な言語タスクで成功する。
ここで、様々なモデル(gpt-j、bert、roberta、gloveなど)を調査し、トークン内の特定のアルファベット文字の有無を予測するために分類器を訓練することにより、文字レベルの情報についてエンコードされた単語の断片を探索する(例えば、"cat" へのモデルエンベッドが文字 "a" を含むかどうかを判断する)。
これらのモデルは文字レベルの情報を強固にエンコードしており、一般に、より大きなモデルはタスクにおいてより優れた性能を発揮する。
これらの結果は、非ラテン文字(アラビア語、デヴァナガリ語、キリル文字)の文字に一般化することを示している。
次に,訓練中にplmが英語の文字情報を取得するための一連の実験と分析を行い,その知識は,特定の文字と音声の特定の部分との系統的関係,関連する文字列のトークン化における自然変動など,複数の現象によって獲得されると主張する。
関連論文リスト
- Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文 参考訳(メタデータ) (2023-11-15T00:57:51Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - Understanding the Role of Input Token Characters in Language Models: How
Does Information Loss Affect Performance? [45.53600782873268]
入力トークン文字における情報損失が事前学習言語モデルの性能に与える影響について検討する。
驚くべきことに、極端な設定下であっても事前トレーニングを行うこと、すなわちトークンの1文字だけを使うこと、標準のNLUベンチマークのパフォーマンス保持、および探索タスクが高いことが判明した。
例えば、トークンからの1文字1文字にのみ事前トレーニングされたモデルでは、SuperGLUEタスクとGLUEタスクのフルトーケンモデルの約90ドル%と7,7ドル%のパフォーマンス保持が達成される。
論文 参考訳(メタデータ) (2023-10-26T09:47:50Z) - Models In a Spelling Bee: Language Models Implicitly Learn the Character
Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。
モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文 参考訳(メタデータ) (2021-08-25T11:48:05Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-08-01T08:09:26Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。