論文の概要: GQ-VAE: A gated quantized VAE for learning variable length tokens
- arxiv url: http://arxiv.org/abs/2512.21913v1
- Date: Fri, 26 Dec 2025 07:59:00 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:02.815182
- Title: GQ-VAE: A gated quantized VAE for learning variable length tokens
- Title(参考訳): GQ-VAE:可変長トークン学習のためのゲート量子化VAE
- Authors: Theo Datta, Kayla Huang, Sham Kakade, David Brandfonbrener,
- Abstract要約: Gated Quantized variational autoencoder (GQ-VAE) は、既存のトークンの代替として独立に事前訓練できる新しいアーキテクチャである。
アーキテクチャの鍵となる革新は、可変長の離散トークンをエンコードすることである。
GQ-VAEは標準VQ-VAEトークンよりも圧縮と言語モデリングの性能を向上させる。
- 参考スコア(独自算出の注目度): 13.988796927323742
- License:
- Abstract: While most frontier models still use deterministic frequency-based tokenization algorithms such as byte-pair encoding (BPE), there has been significant recent work to design learned neural tokenizers. However, these schemes generally add to underlying language model complexity and force large changes to architecture, making them hard to implement at large scales. To overcome these challenges, we propose the gated quantized variational autoencoder (GQ-VAE), a novel architecture that can be independently pre-trained to serve as a drop-in replacement for existing tokenizers. The key innovation of the architecture is to learn to encode variable-length discrete tokens. GQ-VAE improves compression and language modeling performance over a standard VQ-VAE tokenizer, and approaches the compression rate and language modeling performance of BPE. Interestingly, if we use BPE with a smaller vocabulary, such that the compression is equivalent between GQ-VAE and BPE, we find that GQ-VAE improves downstream language model learning. We conclude with a discussion of several exciting avenues for future work. Code can be found at https://github.com/Theo-Datta-115/gq-vae.
- Abstract(参考訳): ほとんどのフロンティアモデルは、バイトペア符号化(BPE)のような決定論的周波数ベースのトークン化アルゴリズムを使っているが、学習されたニューラルトークン化器を設計するための重要な研究が最近行われている。
しかしながら、これらのスキームは一般的に、基礎となる言語モデルの複雑さを増し、アーキテクチャに大きな変更を強要し、大規模な実装が困難になる。
これらの課題を克服するために、既存のトークン化器のドロップイン代替として独立にトレーニング可能な新しいアーキテクチャであるゲート量子化変分オートエンコーダ(GQ-VAE)を提案する。
アーキテクチャの重要な革新は、可変長の離散トークンをエンコードすることを学ぶことだ。
GQ-VAEは標準VQ-VAEトークンよりも圧縮性能と言語モデリング性能を改善し、BPEの圧縮速度と言語モデリング性能にアプローチする。
興味深いことに、GQ-VAEとBPEの圧縮が等価であるような、より小さな語彙でBPEを使用する場合、GQ-VAEは下流言語モデルの学習を改善する。
今後の仕事のために、いくつかのエキサイティングな道の議論で締めくくります。
コードはhttps://github.com/Theo-Datta-115/gq-vaeで見ることができる。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - FLEXITOKENS: Flexible Tokenization for Evolving Language Models [9.003053181721823]
言語モデル(LM)は、単純な微調整によって新しいデータ分布に適応することが困難である。
これは、そのサブワードトークンーザの剛性のためであり、通常は適応中に変化しない。
我々は、トークン化を適応させるために、学習可能なトークン化器を備えたバイトレベルのLMを開発する。
論文 参考訳(メタデータ) (2025-07-17T01:55:41Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。