論文の概要: On the Semantic and Syntactic Information Encoded in Proto-Tokens for One-Step Text Reconstruction
- arxiv url: http://arxiv.org/abs/2602.18301v1
- Date: Fri, 20 Feb 2026 15:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.367956
- Title: On the Semantic and Syntactic Information Encoded in Proto-Tokens for One-Step Text Reconstruction
- Title(参考訳): ワンステップテキスト再構成のためのプロトタイプに符号化された意味的・統語的情報について
- Authors: Ivan Bondarenko, Egor Palkin, Fedor Tikunov,
- Abstract要約: 自己回帰型大言語モデル(LLM)はテキストトークン・バイ・トーケンを生成し、長さnのシーケンスを生成するためにnフォワードパスを必要とする。
最近の研究によると、凍結したLLMは、たった2つの学習されたプロトトケンから数百のトークンを1つの前方パスで再構築できる。
我々は,これらのプロトタイプが符号化した情報と,再構成と制御制約の下でどのように振る舞うかについて検討する。
- 参考スコア(独自算出の注目度): 0.5097809301149341
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autoregressive large language models (LLMs) generate text token-by-token, requiring n forward passes to produce a sequence of length n. Recent work, Exploring the Latent Capacity of LLMs for One-Step Text Reconstruction (Mezentsev and Oseledets), shows that frozen LLMs can reconstruct hundreds of tokens from only two learned proto-tokens in a single forward pass, suggesting a path beyond the autoregressive paradigm. In this paper, we study what information these proto-tokens encode and how they behave under reconstruction and controlled constraints. We perform a series of experiments aimed at disentangling semantic and syntactic content in the two proto-tokens, analyzing stability properties of the e-token, and visualizing attention patterns to the e-token during reconstruction. Finally, we test two regularization schemes for "imposing" semantic structure on the e-token using teacher embeddings, including an anchor-based loss and a relational distillation objective. Our results indicate that the m-token tends to capture semantic information more strongly than the e-token under standard optimization; anchor-based constraints trade off sharply with reconstruction accuracy; and relational distillation can transfer batch-level semantic relations into the proto-token space without sacrificing reconstruction quality, supporting the feasibility of future non-autoregressive seq2seq systems that predict proto-tokens as an intermediate representation.
- Abstract(参考訳): 自己回帰型大言語モデル(LLM)はテキストトークン・バイ・トーケンを生成し、長さnのシーケンスを生成するためにnフォワードパスを必要とする。
最近の研究である、1段テキスト再構成のためのLLMの潜在能力の探索(MezentsevとOseledets)は、凍結したLLMが、たった2つの学習されたプロトタイプからたった1つの前方通過で数百のトークンを再構築できることを示し、自己回帰パラダイムを超えた経路を示唆している。
本稿では,これらのプロトタイプが符号化した情報と,再構成と制御制約の下でどのように振る舞うかを考察する。
本研究は,2つのプロトタイプのセマンティックな内容と構文的内容の分離,e-tokenの安定性特性の解析,e-tokenの再構築時の注意パターンの可視化を目的とした一連の実験を行う。
最後に,教師の埋め込みによるe-tokenに意味構造を付与する2つの正規化手法について,アンカーベース損失とリレーショナル蒸留の目的を含む実験を行った。
以上の結果から,m-token は,標準最適化の下では e-token よりも強い意味情報をキャプチャする傾向があり,アンカーベース制約は再構築精度と鋭くトレードオフし,リレーショナル蒸留により,バッチレベルの意味関係を再構成品質を犠牲にすることなくプロトトケン空間に伝達し,プロトトケンを中間表現として予測する将来的な非自己回帰セq2seq システムの実現可能性を支えることが示唆された。
関連論文リスト
- DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion [28.204167153140506]
音声トークン化器は、離散音声大言語モデルの基盤となる。
本稿では,DSA-Tokenizerを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:22:24Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - Don't Settle Too Early: Self-Reflective Remasking for Diffusion Language Models [40.902681492117786]
RemeDiはマスクベースのDLMで、トークンの分布と各ステップにおけるトークン毎の信頼スコアを予測する。
モデルに不正トークンを検出して再マスクする教師付き微調整を含む、この能力をトレーニングするために、リマスク対応パイプラインをトレーニングします。
実験により、RemeDiは複数のデータセット上のオープンソースのDLMの最先端の結果を達成することが示された。
論文 参考訳(メタデータ) (2025-09-28T05:39:49Z) - LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。