Fugu-MT 論文翻訳(概要): From Tokens to Words: On the Inner Lexicon of LLMs

論文の概要: From Tokens to Words: On the Inner Lexicon of LLMs

arxiv url: http://arxiv.org/abs/2410.05864v2
Date: Thu, 10 Oct 2024 12:41:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 12:30:00.614604
Title: From Tokens to Words: On the Inner Lexicon of LLMs
Title（参考訳）: トークンから言葉へ:LLMの内的語彙について
Authors: Guy Kaplan, Matanel Oren, Yuval Reif, Roy Schwartz,
Abstract要約: 自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
参考スコア（独自算出の注目度）: 7.148628740938674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language is composed of words, but modern LLMs process sub-words as input. A natural question raised by this discrepancy is whether LLMs encode words internally, and if so how. We present evidence that LLMs engage in an intrinsic detokenization process, where sub-word sequences are combined into coherent word representations. Our experiments show that this process takes place primarily within the early and middle layers of the model. They also show that it is robust to non-morphemic splits, typos and perhaps importantly-to out-of-vocabulary words: when feeding the inner representation of such words to the model as input vectors, it can "understand" them despite never seeing them during training. Our findings suggest that LLMs maintain a latent vocabulary beyond the tokenizer's scope. These insights provide a practical, finetuning-free application for expanding the vocabulary of pre-trained models. By enabling the addition of new vocabulary words, we reduce input length and inference iterations, which reduces both space and model latency, with little to no loss in model accuracy.
Abstract（参考訳）: 自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。この矛盾によって引き起こされる自然な疑問は、LLMが単語を内部的にエンコードするかどうか、そしてその方法である。本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。実験の結果、このプロセスはモデルの初期層と中期層で主に行われます。また、入力ベクトルとしてモデルにそのような単語の内的表現を与えるとき、訓練中にその単語を見たことがなくとも「理解」することができる。以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。これらの知見は、事前訓練されたモデルの語彙を拡張するための実用的で微調整のないアプリケーションを提供する。新しい語彙語を追加することで、入力長と推論の繰り返しを減らし、空間とモデルの遅延を減らし、モデルの精度をほとんど、あるいは全く損なわない。

関連論文リスト

Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs [20.1025293763531]
Llama-2-7b のトークン化子は、"northeast" という単語をトークン ['_n', 'ort', 'he', 'astern'] に分割する。本研究では,名前付きエンティティとマルチトークン語の最後のトークン表現が,先行および現在のトークンに関する情報が早期の層で急速に忘れられるような,顕著な「消去」効果を示すことを示す。
論文参考訳（メタデータ） (2024-06-28T17:54:47Z)
Active Use of Latent Constituency Representation in both Humans and Large Language Models [9.995581737621505]
本研究では,人間の脳モデルと大規模言語モデルの両方において,木構造が潜在する選挙区表現が出現することを示す。以上の結果から,ヒト脳とLDMの両方に潜在木構造領域の表現が出現する可能性が示唆された。
論文参考訳（メタデータ） (2024-05-28T14:50:22Z)
Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文参考訳（メタデータ） (2024-03-03T13:14:47Z)
Word Embeddings Revisited: Do LLMs Offer Something New? [2.822851601000061]
意味のある単語の埋め込みを学ぶことは、堅牢な言語モデルをトレーニングする上で鍵となる。最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。
論文参考訳（メタデータ） (2024-02-16T21:47:30Z)
Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文参考訳（メタデータ） (2024-02-13T02:46:45Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
音声認識のための自己教師付き連続学習手法を提案する。文献からのメモリ拡張型ASRモデルを用いて、スライドから新しい単語を復号する。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文参考訳（メタデータ） (2023-05-23T23:22:20Z)
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文参考訳（メタデータ） (2023-05-11T05:19:47Z)
Extensible Prompts for Language Models on Zero-shot Language Style Customization [89.1622516945109]
X-Promptは、自然言語(NL)を超えた大きな言語モデル(LLM)を指示する新しい想像的単語を登録することで、LLMにNL単語で記述するのが難しい概念を理解するよう指示することができる。これらの虚構語は、様々なプロンプトでNL語のように(再)使用できるように、分布外頑健であるように設計されている。
論文参考訳（メタデータ） (2022-12-01T16:11:56Z)
Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文参考訳（メタデータ） (2022-04-10T18:54:43Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)
CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文参考訳（メタデータ） (2020-11-03T07:13:06Z)
Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文参考訳（メタデータ） (2020-07-14T18:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。