論文の概要: GQ-VAE: A gated quantized VAE for learning variable length tokens
- arxiv url: http://arxiv.org/abs/2512.21913v1
- Date: Fri, 26 Dec 2025 07:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 20:48:42.051505
- Title: GQ-VAE: A gated quantized VAE for learning variable length tokens
- Title(参考訳): GQ-VAE:可変長トークン学習のためのゲート量子化VAE
- Authors: Theo Datta, Kayla Huang, Sham Kakade, David Brandfonbrener,
- Abstract要約: Gated Quantized variational autoencoder (GQ-VAE) は、既存のトークンの代替として独立に事前訓練できる新しいアーキテクチャである。
アーキテクチャの鍵となる革新は、可変長の離散トークンをエンコードすることである。
GQ-VAEは標準VQ-VAEトークンよりも圧縮と言語モデリングの性能を向上させる。
- 参考スコア(独自算出の注目度): 13.988796927323742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While most frontier models still use deterministic frequency-based tokenization algorithms such as byte-pair encoding (BPE), there has been significant recent work to design learned neural tokenizers. However, these schemes generally add to underlying language model complexity and force large changes to architecture, making them hard to implement at large scales. To overcome these challenges, we propose the gated quantized variational autoencoder (GQ-VAE), a novel architecture that can be independently pre-trained to serve as a drop-in replacement for existing tokenizers. The key innovation of the architecture is to learn to encode variable-length discrete tokens. GQ-VAE improves compression and language modeling performance over a standard VQ-VAE tokenizer, and approaches the compression rate and language modeling performance of BPE. Interestingly, if we use BPE with a smaller vocabulary, such that the compression is equivalent between GQ-VAE and BPE, we find that GQ-VAE improves downstream language model learning. We conclude with a discussion of several exciting avenues for future work. Code can be found at https://github.com/Theo-Datta-115/gq-vae.
- Abstract(参考訳): ほとんどのフロンティアモデルは、バイトペア符号化(BPE)のような決定論的周波数ベースのトークン化アルゴリズムを使っているが、学習されたニューラルトークン化器を設計するための重要な研究が最近行われている。
しかしながら、これらのスキームは一般的に、基礎となる言語モデルの複雑さを増し、アーキテクチャに大きな変更を強要し、大規模な実装が困難になる。
これらの課題を克服するために、既存のトークン化器のドロップイン代替として独立にトレーニング可能な新しいアーキテクチャであるゲート量子化変分オートエンコーダ(GQ-VAE)を提案する。
アーキテクチャの重要な革新は、可変長の離散トークンをエンコードすることを学ぶことだ。
GQ-VAEは標準VQ-VAEトークンよりも圧縮性能と言語モデリング性能を改善し、BPEの圧縮速度と言語モデリング性能にアプローチする。
興味深いことに、GQ-VAEとBPEの圧縮が等価であるような、より小さな語彙でBPEを使用する場合、GQ-VAEは下流言語モデルの学習を改善する。
今後の仕事のために、いくつかのエキサイティングな道の議論で締めくくります。
コードはhttps://github.com/Theo-Datta-115/gq-vaeで見ることができる。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - FLEXITOKENS: Flexible Tokenization for Evolving Language Models [9.003053181721823]
言語モデル(LM)は、単純な微調整によって新しいデータ分布に適応することが困難である。
これは、そのサブワードトークンーザの剛性のためであり、通常は適応中に変化しない。
我々は、トークン化を適応させるために、学習可能なトークン化器を備えたバイトレベルのLMを開発する。
論文 参考訳(メタデータ) (2025-07-17T01:55:41Z) - NoWag: A Unified Framework for Shape Preserving Compression of Large Language Models [63.271278137295006]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示す。
LLMは膨大な計算量とメモリ需要に悩まされており、リソース制約のある環境への展開を制限している。
圧縮アルゴリズムを用いたワンショット形状保存のための統一フレームワークであるNoWagを提案する。
論文 参考訳(メタデータ) (2025-04-20T11:00:29Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [18.594241501479747]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
古典的Byte-pairを適用する前に, 形態素認識のセグメンテーションを事前学習のステップとして提案する。
音節ベースの書記システムに共通する係り受け母音を扱うために,制約付きBPE(CBPE)を提案する。
CBPEは従属母音を扱い、単一の単位として発生するのではなく、他の文字との結合単位を形成する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - Data Encoding for VQC in Qiskit, A Comparison With Novel Hybrid Encoding [0.0]
振幅符号化は必要な量子ビットを減らすため、アングル符号化は状態の自由を良くし、表現的符号化や位相に基づく区別に使用される。
本稿では,Amplitudeエンコーディングが要求されるqubitを削減し,Angleエンコーディングが状態自由度を向上し,表現的エンコーディングや位相に基づく区別に使用されることにより,効率的なqubit使用が保証されることを示す。
論文 参考訳(メタデータ) (2025-03-18T09:36:09Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Direction is what you need: Improving Word Embedding Compression in
Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。
提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-15T14:28:00Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。