論文の概要: Triplet-Block Diffusion RWKV
- arxiv url: http://arxiv.org/abs/2605.25969v1
- Date: Mon, 25 May 2026 15:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.445295
- Title: Triplet-Block Diffusion RWKV
- Title(参考訳): トリプルト・ブロック拡散RWKV
- Authors: Ke Lin, Yiyang Luo, Zhaolong Su, Yunya Song, Anyi Rao,
- Abstract要約: 因果変換言語モデルは厳密な逐次復号化とステップ毎の注意コストに悩まされる。
我々は,モデルの$O(L)$推論効率と並列な双方向離散拡散を統合する拡散RWKVである$B3D-RWKV$を提案する。
B3D-RWKV-7.2B$は8タスクのスイートと既存のモデルでは同等の精度に達し、デコードスループットでは平均$mathbf1.6times$スピードアップで大幅に性能が向上した。
- 参考スコア(独自算出の注目度): 13.72081860920561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal Transformer language models suffer from strictly sequential decoding and a quadratic per-step attention cost. While linear-time causal models and discrete diffusion models each address these weaknesses, their integration remains inherently inconsistent: diffusion requires bidirectional attention, while causal models are unidirectional. To unify these architectures, we propose $B^3D-RWKV$, a diffusion RWKV variant that integrates the model's $O(L)$ inference efficiency with parallel, bidirectional discrete-diffusion through a \emph{triplet-block layout} method. $B^3D-RWKV-7.2B$ reaches comparable accuracy on an 8-task suite versus existing models while significantly outperforming baselines in decoding throughput with an average of $\mathbf{1.6\times}$ speedup.
- Abstract(参考訳): 因果変換言語モデルは厳密な逐次復号化とステップ毎の注意コストに悩まされる。
線形時間因果モデルと離散拡散モデルはそれぞれこれらの弱点に対処するが、それらの積分は本質的に矛盾しない:拡散には双方向の注意が必要であるが、因果モデルは一方向である。
これらのアーキテクチャを統一するために,モデルの$O(L)$推論効率を, \emph{triplet-block layout} 法による並列かつ双方向な離散拡散と統合した拡散RWKV$(B^3D-RWKV$)を提案する。
B^3D-RWKV-7.2B$は8タスクスイートと既存のモデルでは同等の精度に達し、デコードスループットでは平均$\mathbf{1.6\times}$スピードアップで大幅に性能が向上した。
関連論文リスト
- Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone [6.76700377196741]
両方向マンバのバックボーン上に構築されたマスク付き拡散言語モデルであるDiffuAprielを紹介する。
この結果から, 双方向状態空間アーキテクチャは, マスク拡散LMの強力なデノイザとして機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-19T23:23:49Z) - VAE-DNN: Energy-Efficient Trainable-by-Parts Surrogate Model For Parametric Partial Differential Equations [49.1574468325115]
本稿では, 前方および逆パラメータ化非線形偏微分方程式を解くための, トレーニング可能な各部分サロゲートモデルを提案する。
提案手法はエンコーダを用いて高次元の入力$y(bmx)$を低次元の潜在空間である$bmmu_bmphi_y$に還元する。
完全連結ニューラルネットワークを用いて、Pの潜伏空間に$bmmu_bmphi_y$、$bmmu_bmphi_h$をマッピングする。
論文 参考訳(メタデータ) (2025-08-05T18:37:32Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Instance-dependent Convergence Theory for Diffusion Models [7.237817437521988]
我々は、異なる対象分布の滑らかさに適応する収束率を開発し、これをインスタンス依存境界と呼ぶ。
さらに、$L$は緩和されたリプシッツ定数を表し、ガウス混合モデルの場合、成分の数と対数的にしかスケールしない。
論文 参考訳(メタデータ) (2024-10-17T16:37:33Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z) - Generative Fractional Diffusion Models [53.36835573822926]
我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。
実画像データを用いた評価では,GFDMはFIDが低い値で示されるように,画素幅の多様性と画質の向上を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:53:24Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。