論文の概要: TIDE: Every Layer Knows the Token Beneath the Context
- arxiv url: http://arxiv.org/abs/2605.06216v1
- Date: Thu, 07 May 2026 13:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.825632
- Title: TIDE: Every Layer Knows the Token Beneath the Context
- Title(参考訳): TIDE: どの層もコンテキストの下の利害関係を知っている
- Authors: Ajay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho,
- Abstract要約: 本稿では,標準トランスフォーマーを EmbeddingMemory で拡張する TIDE を提案する。
我々は、TIDEの利点を理論的かつ実証的に確立し、シングルトークンID注入に関連する問題に対処する。
- 参考スコア(独自算出の注目度): 21.609102126208608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit a universally accepted but under-examined design choice in every modern LLM: a token index is looked up once at the input embedding layer and then permanently discarded. This single-injection assumption induces two structural failures: (i) the Rare Token Problem, where a Zipf-type distribution of vocabulary causes rare-token embeddings are chronically under-trained due to receiving a fraction of the cumulative gradient signal compared to common tokens; and (ii) the Contextual Collapse Problem, where limited parameters models map distributionally similar tokens to indistinguishable hidden states. As an attempt to address both, we propose TIDE, which augments the standard transformer with EmbeddingMemory: an ensemble of K independent MemoryBlocks that map token indices to context-free semantic vectors, computed once and injected into every layer through a depth-conditioned softmax router with a learnable null bank. We theoretically and empirically establish the benefits of TIDE in addressing the issues associated with single-token identity injection as well as improve performance across multiple language modeling and downstream tasks.
- Abstract(参考訳): トークンインデックスは入力埋め込み層で一度見上げられ、その後永久に破棄される。
この単射的仮定は2つの構造的失敗を引き起こす。
i) 語彙のZipf型分布が希薄な埋め込みを引き起こす希少トークン問題であって、共通トークンと比較して累積勾配信号のごく一部を受け取っているため、慢性的に過度に訓練されていないこと。
限定パラメータモデルでは、分布的に類似したトークンを識別不能な隠蔽状態にマッピングする。
独立メモリブロックのアンサンブルで、トークンのインデックスを文脈自由なセマンティックベクトルにマッピングし、一度計算し、学習可能なヌルバンクを備えた深さ条件のソフトマックスルータを通じて各層に注入する。
我々はTIDEの利点を理論的かつ実証的に確立し、単一トークンのアイデンティティ注入に関連する問題に対処し、複数の言語モデリングや下流タスクのパフォーマンスを向上させる。
関連論文リスト
- Say Anything but This: When Tokenizer Betrays Reasoning in LLMs [0.7162422068114824]
大規模言語モデル (LLMs) は、離散トークンIDシーケンスを推論する。
現代のサブワードトークンーは、非特異なエンコーディングを日常的に生成する。
トークン化は,一対多のトークンIDマッピングを通じてLCM推論を裏切ることができることを示す。
論文 参考訳(メタデータ) (2026-01-21T05:09:09Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - AWTE-BERT:Attending to Wordpiece Tokenization Explicitly on BERT for
Joint Intent Classification and SlotFilling [5.684659127683238]
BERT (Bidirectional Representations from Transformers) は2つのタスクを共同で最適化する。
本稿では,ワードピーストークン化後の複数のサブトークン特徴を明示的にモデル化したBERTに基づく新しいジョイントモデルを提案する。
実験により,本モデルが意図分類精度,スロットフィリングF1,文レベルの意味的フレーム精度を大幅に向上することを確認した。
論文 参考訳(メタデータ) (2022-11-27T13:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。