論文の概要: VDLM: Variable Diffusion LMs via Robust Latent-to-Text Rendering
- arxiv url: http://arxiv.org/abs/2602.15870v1
- Date: Tue, 27 Jan 2026 19:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.676938
- Title: VDLM: Variable Diffusion LMs via Robust Latent-to-Text Rendering
- Title(参考訳): VDLM:ロバスト遅延テキストレンダリングによる可変拡散膜
- Authors: Shuhui Qu,
- Abstract要約: 自動回帰言語モデルは、可逆的なコミットメントで左から右にデコードし、マルチステップ推論におけるリビジョンを制限する。
テキストレンダリングからセマンティックプランニングを分離するモジュール変数拡散言語モデルであるtextVDLMを提案する。
- 参考スコア(独自算出の注目度): 1.8055130471307603
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autoregressive language models decode left-to-right with irreversible commitments, limiting revision during multi-step reasoning. We propose \textbf{VDLM}, a modular variable diffusion language model that separates semantic planning from text rendering. VDLM applies LLaDA-style masked diffusion over semantic variable embeddings to enable iterative refinement in latent space, then post-trains the planner with trajectory-aware optimization using embedding-space rewards and values, avoiding text decoding inside the RL loop. To convert planned embeddings back to text, we use a \textbf{Vec2Text} renderer and introduce \textbf{embedding perturbations} to robustify decoding under planner noise. Across nine benchmarks spanning general reasoning, math, and code, VDLM is competitive in pre-training and yields substantial post-training improvements on long-form generation tasks, outperforming other baselines. These results highlight the effectiveness of embedding-space post-training and robust latent-to-text rendering for diffusion language modeling.
- Abstract(参考訳): 自動回帰言語モデルは、可逆的なコミットメントで左から右にデコードし、マルチステップ推論におけるリビジョンを制限する。
テキストレンダリングからセマンティックプランニングを分離するモジュラー変数拡散言語モデルである \textbf{VDLM} を提案する。
VDLMは、LLaDAスタイルのマスク付き拡散を意味変数埋め込みに応用し、潜在空間における反復的洗練を可能にする。
計画された埋め込みをテキストに変換するために、我々は \textbf{Vec2Text} レンダラーを使用し、プランナーノイズ下でデコーディングを堅牢化するために \textbf{embedding perturbations} を導入する。
一般的な推論、数学、コードにまたがる9つのベンチマークで、VDLMは事前トレーニングに競争力があり、長期化タスクのトレーニング後の大幅な改善をもたらし、他のベースラインを上回っている。
これらの結果は,拡散言語モデリングにおける組込み後学習と頑健な潜在テキストレンダリングの有効性を浮き彫りにした。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Controlling Multimodal Conversational Agents with Coverage-Enhanced Latent Actions [62.02112656288921]
強化学習(RL)は、様々な人間とAIの相互作用シナリオにMCAを適用するために広く研究されている。
代わりにRLファインチューニングのためのコンパクト潜在作用空間を学習する。
我々は、ペア化された画像テキストデータとテキストのみのデータの両方を活用して、潜在アクション空間を構築します。
論文 参考訳(メタデータ) (2026-01-12T13:13:24Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - Flexible-length Text Infilling for Discrete Diffusion Models [6.614502042098871]
この課題を克服するための最初の離散拡散モデルである textbfDDOT (textbfDiscrete textbfDiffusion with textbfOptimal textbfTransport Position Coupling) を導入する。
DDOTは、新しいサンプルレベル最適輸送(OT)結合を用いて、トークン値とトークン位置を共同で識別する。
One-Billion-WordやYelpといったテキスト入力ベンチマークの実験では、DDOTが単純な拡散ベースラインより優れていることが示されている。
論文 参考訳(メタデータ) (2025-06-16T15:02:12Z) - Segment-Level Diffusion: A Framework for Controllable Long-Form Generation with Diffusion Language Models [12.446047799880587]
トークンレベルの拡散は、単語順依存を明示的にモデル化しない。
パッセージレベルの拡散は、長文の堅牢な表現を学習するのに苦労する。
拡散に基づくテキスト生成を促進するフレームワークであるSegment-Level Diffusionを提案する。
論文 参考訳(メタデータ) (2024-12-15T22:47:44Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。