論文の概要: Effective Context in Transformers: An Analysis of Fragmentation and Tokenization
- arxiv url: http://arxiv.org/abs/2605.13485v1
- Date: Wed, 13 May 2026 13:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.061904
- Title: Effective Context in Transformers: An Analysis of Fragmentation and Tokenization
- Title(参考訳): 変圧器の有効文脈:フラグメンテーションとトークン化の分析
- Authors: Amirmehdi Jafari Fesharaki, Mohammadamin Rami, Aslan Tchamkerten,
- Abstract要約: 表現選択は、有限コンテキスト予測器が達成できることをどう変えるかを検討する。
より小さな表現単位への移行は、コンテキストウィンドウが拡大しても予測を損なう可能性があることを示す。
トークン化は、短いトークンウィンドウを、より長いソースコンテキストウィンドウのように振る舞うことができることを示す。
- 参考スコア(独自算出の注目度): 4.364999214109123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers predict over a representation of a sequence. The same data can be written as bytes, characters, or subword tokens, and these representations may be lossless. Yet, under a fixed context window, they need not expose the same information to the model. This raises a basic question: how does the choice of representation change what a finite-context predictor can achieve? We study this question on Markov sources and uncover two complementary phenomena. First, we observe that moving to smaller representation units can hurt prediction even when the context window is enlarged to cover the relevant source history. To explain this, we introduce fragmentation: a lossless recoding that replaces each source symbol by several smaller units. We prove that fragmentation can strictly increase the optimal finite-context log-loss, showing that the gap is not merely an optimization or capacity issue, but can be intrinsic to the representation. This gives a theoretical account of the finite-context gap observed in byte- and character-level models such as ByT5 and CANINE relative to subword-tokenized models. Second, we study the opposite direction: greedy tokenization -- BPE, WordPiece, and related methods -- which groups source symbols into larger units. We show that tokenization can make a short token window behave like a longer source-context window, and we give a loss guarantee describing when this is achievable. The guarantee depends on how reliably token windows span the needed source history, together with the compression rate of the tokenizer. This also yields a simple diagnostic for real tokenizers: measuring how much source context a fixed token window reliably contains. Together, the two directions establish a finite-context information-theoretic framework for reasoning about representation choices in Transformers.
- Abstract(参考訳): トランスフォーマーはシーケンスの表現を予測します。
同じデータをバイト、文字、またはサブワードトークンとして書くことができ、これらの表現は失われる可能性がある。
しかし、固定されたコンテキストウィンドウの下では、同じ情報をモデルに公開する必要はない。
これは基本的な疑問を提起する: 表現の選択は、どのように有限コンテキスト予測器が達成できるものを変更するのか?
この問題をマルコフ源で研究し、2つの相補的な現象を明らかにする。
まず、より小さな表現単位への移行は、関連するソース履歴をカバーするためにコンテキストウィンドウを拡大しても予測を損なう可能性があることを観察する。
これを説明するために、各ソースシンボルをいくつかの小さなユニットで置き換える、ロスレスな復号法であるフラグメンテーションを導入する。
フラグメンテーションは最適有限コンテキストのログロスを厳密に増加させることができることを証明し、ギャップは単なる最適化やキャパシティの問題ではなく、表現に固有のものであることを示す。
このことは、ByT5やCANINEのようなバイトレベルおよび文字レベルのモデルで見られる有限コンテキストギャップを、サブワードトークン化モデルと比較して理論的に説明する。
第二に、greedyトークン化 -- BPE、WordPiece、および関連するメソッド -- は、ソースシンボルをより大きな単位にグループ化する。
トークン化によって、短いトークンウィンドウがより長いソースコンテキストウィンドウのように振る舞うことができることを示す。
この保証は、ウィンドウが必要なソース履歴にどの程度確実に分散しているか、トークン化器の圧縮速度に依存する。
固定トークンウィンドウがどの程度のソースコンテキストを確実に含んでいるかを測定する。
この2つの方向は、変換器における表現の選択について推論するための有限コンテキスト情報理論の枠組みを確立する。
関連論文リスト
- ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。
画像除去・分離方式のタスクチェイン・コンポジトリを提案する。
また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文 参考訳(メタデータ) (2025-06-04T10:06:32Z) - Hypernym Mercury: Token Optimization Through Semantic Field Constriction And Reconstruction From Hypernyms. A New Text Compression Method [0.0]
本稿では,新しいテキスト表現方式と,段落の単語レベルのセマンティック圧縮を導入する。
結果が,複数のジャンルやモデルにまたがって,段落レベルでどのように保持されているかを示す。
論文 参考訳(メタデータ) (2025-05-12T20:49:50Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - TokenFlow: Rethinking Fine-grained Cross-modal Alignment in
Vision-Language Retrieval [30.429340065755436]
我々は, 細粒度クロスモーダルアライメントのためのモデルに依存しない新しい定式化を考案した。
最適輸送理論に着想を得て,提案手法のインスタンス化であるemphTokenFlowを紹介した。
論文 参考訳(メタデータ) (2022-09-28T04:11:05Z) - Evidence-Aware Inferential Text Generation with Vector Quantised
Variational AutoEncoder [104.25716317141321]
本稿では,大規模なテキストコーパスからイベントの証拠を自動的に発見し,その証拠を利用して推論テキストの生成を導く手法を提案する。
このアプローチは、Event2MindとATOMICの両方のデータセットで最先端のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2020-06-15T02:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。