論文の概要: Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows
- arxiv url: http://arxiv.org/abs/2507.00425v1
- Date: Tue, 01 Jul 2025 04:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.332344
- Title: Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows
- Title(参考訳): 変圧器を用いた自己回帰流を用いた連続空間におけるフレキシブル言語モデリング
- Authors: Ruixiang Zhang, Shuangfei Zhai, Jiatao Gu, Yizhe Zhang, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Josh Susskind, Navdeep Jaitly,
- Abstract要約: 本稿では,連続表現のモデル化にトランスフォーマーに基づく自己回帰正規化フローを用いた新しいフレームワークを提案する。
このアプローチは大きな柔軟性を解放し、グローバルな双方向コンテキストをキャプチャ可能なモデルの構築を可能にします。
離散データによって形成される潜在空間内の複雑な依存関係をキャプチャする混合結合変換を提案する。
- 参考スコア(独自算出の注目度): 46.673228292287895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models have driven remarkable progress in language modeling. Their foundational reliance on discrete tokens, unidirectional context, and single-pass decoding, while central to their success, also inspires the exploration of a design space that could offer new axes of modeling flexibility. In this work, we explore an alternative paradigm, shifting language modeling from a discrete token space to a continuous latent space. We propose a novel framework TarFlowLM, that employs transformer-based autoregressive normalizing flows to model these continuous representations. This approach unlocks substantial flexibility, enabling the construction of models that can capture global bi-directional context through stacked, alternating-direction autoregressive transformations, support block-wise generation with flexible token patch sizes, and facilitate a hierarchical multi-pass generation process. We further propose new mixture-based coupling transformations designed to capture complex dependencies within the latent space shaped by discrete data, and demonstrate theoretical connections to conventional discrete autoregressive models. Extensive experiments on language modeling benchmarks demonstrate strong likelihood performance and highlight the flexible modeling capabilities inherent in our framework.
- Abstract(参考訳): 自己回帰モデルは言語モデリングにおいて顕著な進歩をもたらした。
個々のトークン、一方向のコンテキスト、シングルパスのデコーディングへの基礎的依存は、その成功の中心でありながら、モデリングの柔軟性の新たな軸を提供するデザイン空間の探求にも刺激を与えている。
そこで本研究では,言語モデリングを離散トークン空間から連続潜在空間へシフトする,代替パラダイムについて検討する。
本稿では,これらの連続表現をモデル化するために,トランスフォーマーに基づく自己回帰正規化フローを用いた新しいフレームワークTarFlowLMを提案する。
このアプローチは、スタック化された、交互方向の自己回帰変換を通じてグローバルな双方向コンテキストをキャプチャ可能なモデルの構築を可能にし、フレキシブルなトークンパッチサイズでブロックワイズ生成をサポートし、階層的なマルチパス生成プロセスを容易にする。
さらに、離散データによって形成される潜在空間内の複雑な依存関係を捕捉し、従来の離散自己回帰モデルとの理論的関係を示すために、新しい混合結合変換を提案する。
言語モデリングベンチマークに関する大規模な実験は、高い性能を示し、我々のフレームワークに固有のフレキシブルなモデリング能力を強調します。
関連論文リスト
- CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation [7.250878248686215]
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。
ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:52:41Z) - Resona: Improving Context Copying in Linear Recurrence Models with Retrieval [24.84741364872597]
本稿では,リニアリカレントモデルとリカレントモデルを組み合わせたシンプルでスケーラブルなフレームワークである__Resona__を紹介する。
様々な線形リカレントモデルの実験は、様々な合成および実世界の自然言語タスクにおいて顕著な性能向上を示す。
論文 参考訳(メタデータ) (2025-03-28T23:43:33Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Training-free Heterogeneous Model Merging [40.681362819808136]
異種モデル用に設計された革新的なモデルマージフレームワークを提案する。
構造的に不均一なモデルのマージは、均質なマージに匹敵する性能レベルを達成することができることを示す。
私たちのコードはhttps://github.com/zju-vipa/training_free_heterogeneous_model_mergingで公開されています。
論文 参考訳(メタデータ) (2024-12-29T04:49:11Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design [37.634098563033795]
本稿では、フローベース生成モデルの実現に欠落したリンクを提供する離散データのフローベースモデルを提案する。
私たちの重要な洞察は、連続時間マルコフ連鎖を用いて連続空間フローマッチングの離散的等価性を実現できるということです。
この能力をタンパク質共設計のタスクに適用し、タンパク質の構造と配列を共同生成するモデルを学ぶ。
論文 参考訳(メタデータ) (2024-02-07T16:15:36Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。