論文の概要: LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
- arxiv url: http://arxiv.org/abs/2502.15007v1
- Date: Thu, 20 Feb 2025 19:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 21:37:38.967376
- Title: LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
- Title(参考訳): LLM-Microscope:変圧器のコンテキスト記憶における乱れの隠れた役割を明らかにする
- Authors: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov,
- Abstract要約: 大規模言語モデルがどのようにコンテキスト情報をエンコードし、格納するかを定量化する手法。
トークンはしばしばマイナー(例えば、決定子、句読点)と見なされるが、驚くほど高いコンテキストを持つことを示す。
本稿では,トークンレベルの非線形性を評価し,文脈記憶を評価し,中間層への寄与を可視化するオープンソースツールキット LLM-Microscope を提案する。
- 参考スコア(独自算出の注目度): 6.023406194975845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce methods to quantify how Large Language Models (LLMs) encode and store contextual information, revealing that tokens often seen as minor (e.g., determiners, punctuation) carry surprisingly high context. Notably, removing these tokens -- especially stopwords, articles, and commas -- consistently degrades performance on MMLU and BABILong-4k, even if removing only irrelevant tokens. Our analysis also shows a strong correlation between contextualization and linearity, where linearity measures how closely the transformation from one layer's embeddings to the next can be approximated by a single linear mapping. These findings underscore the hidden importance of filler tokens in maintaining context. For further exploration, we present LLM-Microscope, an open-source toolkit that assesses token-level nonlinearity, evaluates contextual memory, visualizes intermediate layer contributions (via an adapted Logit Lens), and measures the intrinsic dimensionality of representations. This toolkit illuminates how seemingly trivial tokens can be critical for long-range understanding.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) がコンテキスト情報をエンコードし,格納する手法を紹介し,トークンが驚くほど高いコンテキストを持つ小ささ (例えば,決定子,句読点) であることを示す。
特に、これらのトークン、特にストップワード、記事、コンマの削除は、無関係なトークンだけを削除しても、MMLUとBABILong-4kのパフォーマンスを一貫して低下させる。
また, 文脈化と線形性の間には強い相関関係がみられ, 線形性は, 一つの層に埋め込まれた埋め込みから次の層への変換を, 単一の線形写像で近似することができる。
これらの知見は, コンテクスト維持におけるフィラートークンの重要性を浮き彫りにした。
さらに,トークンレベルの非線形性を評価し,文脈記憶を評価し,中間層によるコントリビューションを可視化し(ロジットレンズを用いて),表現の内在次元を測定するオープンソースツールキット LLM-Microscope を提案する。
このツールキットは、長距離理解において、一見自明なトークンがいかに重要であるかを照らす。
関連論文リスト
- PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models [0.0]
PACTは,無関係なトークンを抽出し,視覚的に冗長なトークンをマージすることで,推論時間とメモリ使用量を削減する手法である。
我々の手法は、注意点に頼ることなく重要でないトークンを識別するために、新しい重要性の指標を用いる。
また、視覚トークンを効率的にクラスタリングする、距離境界密度ピーククラスタリングという新しいクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-11T20:45:00Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。
これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。
大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文 参考訳(メタデータ) (2025-02-03T17:47:03Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens [20.37803751979975]
テキストを大きな言語モデルベースの埋め込み器に入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致させることができる。
この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。
論文 参考訳(メタデータ) (2024-06-25T08:55:12Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Attention-likelihood relationship in transformers [2.8304391396200064]
我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-03-15T00:23:49Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。