Fugu-MT 論文翻訳(概要): Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

論文の概要: Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

arxiv url: http://arxiv.org/abs/2406.20086v2
Date: Wed, 02 Oct 2024 23:33:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 04:45:33.24676
Title: Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs
Title（参考訳）: LLMにおける不必要な語彙項目のフットプリントとしてのトークン消去
Authors: Sheridan Feucht, David Atkinson, Byron Wallace, David Bau,
Abstract要約: Llama-2-7b のトークン化子は、"northeast" という単語をトークン ['_n', 'ort', 'he', 'astern'] に分割する。本研究では,名前付きエンティティとマルチトークン語の最後のトークン表現が,先行および現在のトークンに関する情報が早期の層で急速に忘れられるような,顕著な「消去」効果を示すことを示す。
参考スコア（独自算出の注目度）: 20.1025293763531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs process text as sequences of tokens that roughly correspond to words, where less common words are represented by multiple tokens. However, individual tokens are often semantically unrelated to the meanings of the words/concepts they comprise. For example, Llama-2-7b's tokenizer splits the word "northeastern" into the tokens ['_n', 'ort', 'he', 'astern'], none of which correspond to semantically meaningful units like "north" or "east." Similarly, the overall meanings of named entities like "Neil Young" and multi-word expressions like "break a leg" cannot be directly inferred from their constituent tokens. Mechanistically, how do LLMs convert such arbitrary groups of tokens into useful higher-level representations? In this work, we find that last token representations of named entities and multi-token words exhibit a pronounced "erasure" effect, where information about previous and current tokens is rapidly forgotten in early layers. Using this observation, we propose a method to "read out" the implicit vocabulary of an autoregressive LLM by examining differences in token representations across layers, and present results of this method for Llama-2-7b and Llama-3-8B. To our knowledge, this is the first attempt to probe the implicit vocabulary of an LLM.
Abstract（参考訳）: LLMはテキストを、大まかに単語に対応するトークンのシーケンスとして処理し、より一般的な単語は複数のトークンで表される。しかし、個々のトークンはしばしば、それらを構成する単語や概念の意味と意味的に無関係である。例えば、Llama-2-7bのトークン化子は、"northeast" という単語をトークン ['_n', 'ort', 'he', 'astern'] に分割する。同様に、"Neil Young"のような名前付きエンティティや"break a leg"のようなマルチワード表現の全体的な意味は、構成トークンから直接推測することはできない。機械的に、LLMはどのようにしてそのような任意のトークン群を有用な高レベル表現に変換するのか? 本研究では,名前付きエンティティとマルチトークン語の最後のトークン表現が,先行および現在のトークンに関する情報が早期の層で急速に忘れられるような,顕著な「消去」効果を示すことを示す。本研究は,Llama-2-7bとLlama-3-8Bのトークン表現の違いを検証し,自己回帰型LLMの暗黙の語彙を読み出す手法を提案する。我々の知る限り、これはLLMの暗黙の語彙を探索する最初の試みである。

関連論文リスト

LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文参考訳（メタデータ） (2026-02-04T16:19:05Z)
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs [40.11215282864732]
自然言語による記述に潜在表現をマッピングするための新しいアプローチであるLatentLensを紹介する。本手法を10種類の視覚言語モデル(VLM)で評価する。本研究では,LatentLensが生成した記述が意味論的に意味を持ち,人間に対してより微細な解釈を提供することを示す。
論文参考訳（メタデータ） (2026-01-31T02:33:07Z)
Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs [2.2574632480801484]
トークン化は,大規模言語モデル(LLM)をトレーニングする最初のステップである本稿では,特定の LLM に対して与えられたテキストに対するトークン化ペナルティを計算し,トークン化がいかに「悪い」かを示すペナルティ関数セットを提案する。
論文参考訳（メタデータ） (2025-12-26T09:16:33Z)
Vocab Diet: Reshaping the Vocabulary of LLMs with Vector Arithmetic [9.273273023595065]
大型言語モデル (LLM) は「ウォーク」>「ウォーク」のような単語形式のバリエーションを埋め込み空間における線形方向としてエンコードする。標準的なトークン化アルゴリズムは、これらのバリエーションを異なるトークンとして扱う。本稿では,各面形状に一意なトークンを割り当てるのではなく,共有基底形状と変換ベクトルから構成する,語彙のコンパクトな再構成を提案する。
論文参考訳（メタデータ） (2025-10-19T20:56:58Z)
Spelling-out is not Straightforward: LLMs' Capability of Tokenization from Token to Characters [25.430820735194768]
大型言語モデル(LLM)は、文字単位で文字をスペルするが、より複雑な文字レベルのタスクに苦労する。本研究では,LLMがスペルアウト処理中に文字レベルの情報を内部的にどのように表現し,活用するかを検討する。
論文参考訳（メタデータ） (2025-06-12T12:27:41Z)
TokAlign: Efficient Vocabulary Adaptation via Token Alignment [41.59130966729569]
トークン化は、大規模言語モデル(LLM)がテキストを処理するための基本的なステップである。新しいドメインや言語では、トークン化の非効率性はLLMのトレーニングと生成を遅くする。トークン共起ビューからLLMの語彙を置き換えるために,TokAlignという効率的な手法を提案する。
論文参考訳（メタデータ） (2025-06-04T03:15:57Z)
Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文参考訳（メタデータ） (2025-06-03T17:59:47Z)
Boundless Byte Pair Encoding: Breaking the Pre-tokenization Barrier [4.300681074103876]
事前トークン化は、コーパス内のトークンの分布を一般的なフル長の単語に歪ませる原因となる。本研究では,境界制約を緩和する改良型BPEアルゴリズムであるBoundlessBを提案する。我々のアプローチは、2つの完全プレトケンを選択的にスーパーワードと呼ぶより大きな単位にマージする。
論文参考訳（メタデータ） (2025-03-31T19:36:29Z)
SuperBPE: Space Travel for Language Models [112.64910939119056]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。 SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文参考訳（メタデータ） (2025-03-17T17:53:23Z)
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文参考訳（メタデータ） (2025-02-05T15:33:00Z)
Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。グループ化されたサブワードの検査では様々な意味的類似性を示します
論文参考訳（メタデータ） (2024-11-07T08:38:32Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence [6.991281327290525]
言語モデルにおける交換可能なトークンを学習するための新しいアプローチを提案する。本手法は,構文表現における境界変数のリネームが意味論を保存する原理であるα等価性に対処するように設計されている。
論文参考訳（メタデータ） (2024-10-22T16:34:36Z)
Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization [3.0023392750520883]
サブワードトークン化手法の一部として形態素セグメンテーション法が利用できるかどうかを考察する。予測結果から, 形態的セグメンテーションは, 一般的に使われているサブワードトークン化剤と同じくらい有効である可能性が示唆された。バランスの取れたトークンの頻度分布を持つトークン化器は、よりうまく機能する傾向にある。
論文参考訳（メタデータ） (2024-10-19T04:06:09Z)
From Tokens to Words: On the Inner Lexicon of LLMs [7.148628740938674]
自然言語は単語から成り立っているが、現代のLLMはサブワードを入力として処理する。本稿では,LLMが単語列をコヒーレントな単語表現に結合する固有デトケン化過程に関与することを示す。以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
論文参考訳（メタデータ） (2024-10-08T09:53:35Z)
CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。 LLMはどの程度の間、正書法情報を学ぶことができるのか? LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-23T18:27:03Z)
A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens [20.37803751979975]
テキストを埋め込みモデルに入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致します。この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。最初のプリンシパルコンポーネントを調整することで、テキストの埋め込みをキートークンと整列することができます。
論文参考訳（メタデータ） (2024-06-25T08:55:12Z)
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文参考訳（メタデータ） (2024-05-26T21:31:59Z)
Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文参考訳（メタデータ） (2024-03-03T13:14:47Z)
Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文参考訳（メタデータ） (2024-01-20T20:55:21Z)
More Than Words: Collocation Tokenization for Latent Dirichlet Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文参考訳（メタデータ） (2021-08-24T14:08:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。