論文の概要: SA-DiffuSeq: Addressing Computational and Scalability Challenges in Long-Document Generation with Sparse Attention
- arxiv url: http://arxiv.org/abs/2512.20724v1
- Date: Tue, 23 Dec 2025 19:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.581239
- Title: SA-DiffuSeq: Addressing Computational and Scalability Challenges in Long-Document Generation with Sparse Attention
- Title(参考訳): SA-DiffuSeq: 疎注意による長期文書生成における計算とスケーラビリティの問題に対処する
- Authors: Alexandros Christoforos, Chadbourne Davis,
- Abstract要約: SA-DiffuSeqは、長期ドキュメントモデリングのスケーラビリティを改善するために、疎注意を統合する拡散フレームワークである。
この結果から, 分散モデルに構造的疎結合を組み込むことが, 効率的かつ表現力のある長文生成に有望な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion based approaches to long form text generation suffer from prohibitive computational cost and memory overhead as sequence length increases. We introduce SA-DiffuSeq, a diffusion framework that integrates sparse attention to fundamentally improve scalability for long document modeling. By selectively allocating attention within the diffusion process, SA-DiffuSeq significantly reduces computational complexity while maintaining semantic coherence and generation quality. A key component of our method is a soft absorbing state tailored to sparse attention dynamics, which stabilizes diffusion trajectories and accelerates sequence reconstruction. This design improves sampling efficiency and enhances precision in long range dependency modeling. Extensive experiments demonstrate that SA-DiffuSeq consistently surpasses state of the art diffusion baselines in both training efficiency and sampling speed, with especially strong gains on extended sequences. These properties make SA-DiffuSeq well suited for demanding long form applications such as scientific writing, large scale code generation, and multi turn long context dialogue. Overall, our results indicate that incorporating structured sparsity into diffusion models is a promising direction for efficient and expressive long text generation.
- Abstract(参考訳): 長文テキスト生成への拡散に基づくアプローチは、列長が増加するにつれて計算コストとメモリオーバーヘッドに悩まされる。
本稿では,分散フレームワークSA-DiffuSeqについて紹介する。
SA-DiffuSeqは拡散過程内の注意を選択的に割り当てることで、セマンティックコヒーレンスと生成品質を維持しながら計算複雑性を著しく低減する。
本手法の鍵となる構成要素は, 拡散軌道を安定化し, 配列再構成を高速化する, スパースアテンションダイナミクスに適した軟吸収状態である。
この設計によりサンプリング効率が向上し、長距離依存性モデリングの精度が向上する。
大規模な実験により、SA-DiffuSeqはトレーニング効率とサンプリング速度の両方において、最先端の拡散ベースラインを一貫して上回り、特に拡張シーケンスでは強い利得を示す。
これらの特性により、SA-DiffuSeqは科学的な記述、大規模コード生成、複数ターンの長いコンテキスト対話といったロングフォームのアプリケーションに適している。
以上の結果から,構造的疎結合を拡散モデルに組み込むことが,効率的かつ表現力のある長文生成に有望な方向であることが示唆された。
関連論文リスト
- MoE-DiffuSeq: Enhancing Long-Document Diffusion Models with Sparse Attention and Mixture of Experts [45.88028371034407]
MoE-DiffuSeqは、長期文書生成における拡散モデルを強化するためのエキスパートベースのフレームワークの混合である。
MoE-DiffuSeqはスパースアテンションとエキスパートアーキテクチャの混合を統合し、効率的でスケーラブルなロングシーケンスモデリングを可能にする。
論文 参考訳(メタデータ) (2025-12-23T18:50:54Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Segment-Level Diffusion: A Framework for Controllable Long-Form Generation with Diffusion Language Models [12.446047799880587]
トークンレベルの拡散は、単語順依存を明示的にモデル化しない。
パッセージレベルの拡散は、長文の堅牢な表現を学習するのに苦労する。
拡散に基づくテキスト生成を促進するフレームワークであるSegment-Level Diffusionを提案する。
論文 参考訳(メタデータ) (2024-12-15T22:47:44Z) - Discrete Diffusion Language Model for Efficient Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。
提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-25T09:55:22Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。