論文の概要: DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for Breaking the Efficiency-Quality Trade-off
- arxiv url: http://arxiv.org/abs/2509.02785v1
- Date: Tue, 02 Sep 2025 19:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.324362
- Title: DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for Breaking the Efficiency-Quality Trade-off
- Title(参考訳): DrDiff: 効率-品質トレードオフを打破するための階層的注意による動的ルーティング拡散
- Authors: Jusheng Zhang, Yijia Fan, Kaitong Cai, Zimeng Huang, Xiaofei Sun, Jian Wang, Chengpei Tang, Keze Wang,
- Abstract要約: DrDiffは長文生成のための新しいフレームワークで、3つのコア技術による効率性と品質のトレードオフを克服する。
まず,テキストの複雑さに基づいた拡散過程において,計算資源をインテリジェントに割り当てる動的専門家スケジューリング機構を設計する。
第2に,様々な入力長に応じて注意パターンを適応的に調整する階層的スパース注意(HSA)機構を導入する。
第3に,拡散ステップを削減するためにDPM-solver++と組み合わせたソフト吸収誘導最適化手法を提案する。
- 参考スコア(独自算出の注目度): 15.163677590742859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces DrDiff, a novel framework for long-text generation that overcomes the efficiency-quality trade-off through three core technologies. First, we design a dynamic expert scheduling mechanism that intelligently allocates computational resources during the diffusion process based on text complexity, enabling more efficient handling of text generation tasks of varying difficulty. Second, we introduce a Hierarchical Sparse Attention (HSA) mechanism that adaptively adjusts attention patterns according to a variety of input lengths, reducing computational complexity from O($n^2$) to O($n$) while maintaining model performance. Finally, we propose a soft absorption guidance optimization strategy that combines with DPM-solver++ to reduce diffusion steps, significantly improving generation speed. Comprehensive experiments on various long-text generation benchmarks demonstrate the superiority of our DrDiff over the existing SOTA methods.
- Abstract(参考訳): 本稿では,3つのコア技術による効率性のトレードオフを克服する,長文生成のための新しいフレームワークであるDrDiffを紹介する。
まず,テキストの複雑さに基づく拡散過程において,計算資源をインテリジェントに割り当てる動的専門家スケジューリング機構を設計し,テキスト生成タスクをより効率的に処理できるようにする。
第二に、階層的スパース注意(HSA)機構を導入し、様々な入力長に応じて注意パターンを適応的に調整し、モデル性能を維持しながら計算複雑性をO($n^2$)からO($n$)に低減する。
最後に,DPM-solver++と組み合わせたソフト吸収誘導最適化手法を提案する。
様々な長期テキスト生成ベンチマークに関する総合的な実験は、既存のSOTA法よりもDrDiffの方が優れていることを示す。
関連論文リスト
- Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation [18.670626228472877]
DIFFTは報酬誘導型生成タスクとしてフィーチャートランスフォーメーションを再定義する。
構造的かつ離散的な特徴を生成し、機能内依存関係を保持しながら、並列な機能間生成を可能にする。
予測精度とロバスト性において、最先端のベースラインを一貫して上回り、トレーニングや推論時間を大幅に低下させる。
論文 参考訳(メタデータ) (2025-05-21T06:18:42Z) - IPGO: Indirect Prompt Gradient Optimization for Parameter-Efficient Prompt-level Fine-Tuning on Text-to-Image Models [16.559232159385193]
テキストから画像への拡散モデルは、テキストプロンプトから画像を生成するのに優れているが、コンテンツセマンティクス、美学、人間の嗜好と最適以下の関係を示すことが多い。
本研究では, パラメータ効率のよい新しいフレームワーク, Indirect Prompt Gradient Optimization (IPGO) を提案する。
IPGOは、プロンプト埋め込みの初めと終わりに連続的に微分可能な埋め込みを注入することで、ローランク構造を回転から柔軟性と非線形性で活用することで、プロンプト埋め込みを強化する。
論文 参考訳(メタデータ) (2025-03-25T18:14:42Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Enhancing Document-level Argument Extraction with Definition-augmented Heuristic-driven Prompting for LLMs [0.0]
イベント引数抽出(EAE)は、構造化されていないテキストから構造化された情報を抽出するための重要な手段である。
本研究では,文書レベルEAEにおけるLarge Language Models (LLMs) の性能向上を目的とした定義拡張ヒューリスティック・プロンプト(DHP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T19:03:14Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - AToM: Amortized Text-to-Mesh using 2D Diffusion [107.02696990299032]
Amortized Text-to-Mesh (AToM) は複数のテキストプロンプトに同時に最適化されたフィードフォワードフレームワークである。
AToMはトレーニングコストの約10倍の削減とともに、1秒未満で高品質なテクスチャメッシュを直接生成する。
AToMは4倍以上の精度で最先端のアモルト化アプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-02-01T18:59:56Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。