論文の概要: MoE-DiffuSeq: Enhancing Long-Document Diffusion Models with Sparse Attention and Mixture of Experts
- arxiv url: http://arxiv.org/abs/2512.20604v1
- Date: Tue, 23 Dec 2025 18:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.978864
- Title: MoE-DiffuSeq: Enhancing Long-Document Diffusion Models with Sparse Attention and Mixture of Experts
- Title(参考訳): MoE-DiffuSeq: 疎注意と専門家の混在による長期文書拡散モデルの強化
- Authors: Alexandros Christoforos, Chadbourne Davis,
- Abstract要約: MoE-DiffuSeqは、長期文書生成における拡散モデルを強化するためのエキスパートベースのフレームワークの混合である。
MoE-DiffuSeqはスパースアテンションとエキスパートアーキテクチャの混合を統合し、効率的でスケーラブルなロングシーケンスモデリングを可能にする。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MoE-DiffuSeq, a mixture of experts based framework for enhancing diffusion models in long document generation. Existing diffusion based text generation models, such as DiffuSeq, suffer from high computational cost and memory overhead when applied to extended sequences. To address these challenges, MoE-DiffuSeq integrates sparse attention with a mixture of experts architecture, enabling efficient and scalable long sequence modeling. Our approach introduces a customized sparse attention mechanism designed to reduce computational complexity while preserving text quality and coherence. In addition, we incorporate a soft absorbing state within the diffusion process to accelerate sequence reconstruction and improve generation precision. Extensive experiments demonstrate that MoE-DiffuSeq significantly improves training efficiency and sampling speed compared to existing diffusion models. These advantages are particularly effective for long document scenarios, including scientific article generation, code repository modeling, and long form dialogue generation. Benchmark results further show that MoE-DiffuSeq improves efficiency, speed, accuracy, and expressiveness, advancing the practical applicability of diffusion models for high quality long form text generation.
- Abstract(参考訳): 本稿では,長期文書生成における拡散モデル向上のための専門家ベースのフレームワークであるMoE-DiffuSeqを紹介する。
DiffuSeqのような既存の拡散ベースのテキスト生成モデルは、拡張シーケンスに適用した場合、高い計算コストとメモリオーバーヘッドに悩まされる。
これらの課題に対処するため、MoE-DiffuSeqはスパースアテンションと専門家アーキテクチャの混合を統合し、効率的でスケーラブルなロングシーケンスモデリングを可能にする。
本手法では,テキストの品質とコヒーレンスを保ちながら,計算処理の複雑さを軽減するために,カスタマイズされたスパースアテンション機構を導入する。
さらに, 拡散過程に軟吸収状態を導入し, 配列再構成を高速化し, 生成精度を向上させる。
MoE-DiffuSeqは既存の拡散モデルと比較してトレーニング効率とサンプリング速度を大幅に改善することを示した。
これらの利点は、科学的な記事生成、コードリポジトリモデリング、長い形式の対話生成など、長いドキュメントシナリオに特に有効です。
さらにベンチマーク結果から,MoE-DiffuSeqは効率,速度,精度,表現性を向上し,高品質な長文テキスト生成のための拡散モデルの実用性向上を図っている。
関連論文リスト
- OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot [4.990334603434127]
OBS-Diffは、大規模テキスト・画像拡散モデルの正確かつトレーニング不要な圧縮を可能にする、新しいワンショットプルーニングフレームワークである。
広汎な実験により、OBS-Diffは拡散モデルに対する最先端のワンショットプルーニングを実現し、視覚的品質の最小限の劣化を伴う推論加速を実現する。
論文 参考訳(メタデータ) (2025-10-08T08:19:15Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Discrete Diffusion Language Model for Efficient Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。
提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-25T09:55:22Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。