論文の概要: From Tokens to Words: On the Inner Lexicon of LLMs
- arxiv url: http://arxiv.org/abs/2410.05864v2
- Date: Thu, 10 Oct 2024 12:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:30:00.614604
- Title: From Tokens to Words: On the Inner Lexicon of LLMs
- Title(参考訳): トークンから言葉へ:LLMの内的語彙について
- Authors: Guy Kaplan, Matanel Oren, Yuval Reif, Roy Schwartz,
- Abstract要約: 自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。
本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。
以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
- 参考スコア(独自算出の注目度): 7.148628740938674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language is composed of words, but modern LLMs process sub-words as input. A natural question raised by this discrepancy is whether LLMs encode words internally, and if so how. We present evidence that LLMs engage in an intrinsic detokenization process, where sub-word sequences are combined into coherent word representations. Our experiments show that this process takes place primarily within the early and middle layers of the model. They also show that it is robust to non-morphemic splits, typos and perhaps importantly-to out-of-vocabulary words: when feeding the inner representation of such words to the model as input vectors, it can "understand" them despite never seeing them during training. Our findings suggest that LLMs maintain a latent vocabulary beyond the tokenizer's scope. These insights provide a practical, finetuning-free application for expanding the vocabulary of pre-trained models. By enabling the addition of new vocabulary words, we reduce input length and inference iterations, which reduces both space and model latency, with little to no loss in model accuracy.
- Abstract(参考訳): 自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。
この矛盾によって引き起こされる自然な疑問は、LLMが単語を内部的にエンコードするかどうか、そしてその方法である。
本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。
実験の結果、このプロセスはモデルの初期層と中期層で主に行われます。
また、入力ベクトルとしてモデルにそのような単語の内的表現を与えるとき、訓練中にその単語を見たことがなくとも「理解」することができる。
以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
これらの知見は、事前訓練されたモデルの語彙を拡張するための実用的で微調整のないアプリケーションを提供する。
新しい語彙語を追加することで、入力長と推論の繰り返しを減らし、空間とモデルの遅延を減らし、モデルの精度をほとんど、あるいは全く損なわない。
関連論文リスト
- Subword models struggle with word learning, but surprisal hides it [8.883534683127415]
単語と文字のモデルにおける単語学習を,心理言語学的語彙決定タスクを用いて研究する。
サブワードLMは高い精度で単語や非単語を識別するのに苦労するが、文字LMはこの課題を簡単かつ一貫して解決する。
論文 参考訳(メタデータ) (2025-02-18T13:09:16Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs [20.1025293763531]
Llama-2-7b のトークン化子は、"northeast" という単語をトークン ['_n', 'ort', 'he', 'astern'] に分割する。
本研究では,名前付きエンティティとマルチトークン語の最後のトークン表現が,先行および現在のトークンに関する情報が早期の層で急速に忘れられるような,顕著な「消去」効果を示すことを示す。
論文 参考訳(メタデータ) (2024-06-28T17:54:47Z) - Active Use of Latent Constituency Representation in both Humans and Large Language Models [9.995581737621505]
本研究では,人間の脳モデルと大規模言語モデルの両方において,木構造が潜在する選挙区表現が出現することを示す。
以上の結果から,ヒト脳とLDMの両方に潜在木構造領域の表現が出現する可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-28T14:50:22Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Word Embeddings Revisited: Do LLMs Offer Something New? [2.822851601000061]
意味のある単語の埋め込みを学ぶことは、堅牢な言語モデルをトレーニングする上で鍵となる。
最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。
論文 参考訳(メタデータ) (2024-02-16T21:47:30Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。