論文の概要: Muon-Accelerated Attention Distillation for Real-Time Edge Synthesis via Optimized Latent Diffusion
- arxiv url: http://arxiv.org/abs/2504.08451v1
- Date: Fri, 11 Apr 2025 11:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:46.364141
- Title: Muon-Accelerated Attention Distillation for Real-Time Edge Synthesis via Optimized Latent Diffusion
- Title(参考訳): 最適化潜在拡散による実時間エッジ合成のためのミューオン加速留意蒸留
- Authors: Weiye Chen, Qingen Zhu, Qian Long,
- Abstract要約: Muon-ADは、Muonをリアルタイムエッジ合成のための注意蒸留と統合するフレームワークである。
本フレームワークは,Jetson Orin上でのピークメモリを7GBに削減し,24FPSのリアルタイム生成を可能にする。
これらの進歩は、資源制約された環境で高品質な視覚合成を民主化する道を開く。
- 参考スコア(独自算出の注目度): 1.9913317582614614
- License:
- Abstract: Recent advances in visual synthesis have leveraged diffusion models and attention mechanisms to achieve high-fidelity artistic style transfer and photorealistic text-to-image generation. However, real-time deployment on edge devices remains challenging due to computational and memory constraints. We propose Muon-AD, a co-designed framework that integrates the Muon optimizer with attention distillation for real-time edge synthesis. By eliminating gradient conflicts through orthogonal parameter updates and dynamic pruning, Muon-AD achieves 3.2 times faster convergence compared to Stable Diffusion-TensorRT, while maintaining synthesis quality (15% lower FID, 4% higher SSIM). Our framework reduces peak memory to 7GB on Jetson Orin and enables 24FPS real-time generation through mixed-precision quantization and curriculum learning. Extensive experiments on COCO-Stuff and ImageNet-Texture demonstrate Muon-AD's Pareto-optimal efficiency-quality trade-offs. Here, we show a 65% reduction in communication overhead during distributed training and real-time 10s/image generation on edge GPUs. These advancements pave the way for democratizing high-quality visual synthesis in resource-constrained environments.
- Abstract(参考訳): 近年の視覚合成の進歩は拡散モデルと注意機構を活用して、高忠実な芸術的スタイルの転送とフォトリアリスティックなテキスト・ツー・イメージ生成を実現している。
しかし、エッジデバイスへのリアルタイムデプロイメントは、計算とメモリの制約のため、依然として困難である。
提案するMuon-ADは,Muonオプティマイザとアテンション蒸留を統合した,リアルタイムエッジ合成のためのフレームワークである。
直交パラメータの更新と動的プルーニングによる勾配の衝突を排除することで、Muon-ADは安定拡散テンソルRTに比べて3.2倍の収束を実現し、合成品質(FIDが15%低く、SSIMが4%高い)を維持した。
本フレームワークは,Jetson Orin上でのピークメモリを7GBに削減し,混合精度量子化とカリキュラム学習による24FPSのリアルタイム生成を可能にする。
COCO-StuffとImageNet-Textureの大規模な実験は、Muon-ADのパレート最適効率品質トレードオフを実証している。
ここでは,エッジGPU上での分散トレーニングとリアルタイム10s/image生成における通信オーバーヘッドを65%削減することを示す。
これらの進歩は、資源制約された環境で高品質な視覚合成を民主化する道を開く。
関連論文リスト
- Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - RelitLRM: Generative Relightable Radiance for Large Reconstruction Models [52.672706620003765]
本稿では,新しい照明下での3Dオブジェクトの高品質なガウススプレイティング表現を生成するためのRelitLRMを提案する。
複雑なキャプチャと遅い最適化を必要とする従来の逆レンダリングとは異なり、RelitLRMはフィードフォワードトランスフォーマーベースのモデルを採用している。
スパースビューフィードフォワードRelitLRMは、最先端の密集ビュー最適化ベースラインに対して、競争力のあるリライティング結果を提供する。
論文 参考訳(メタデータ) (2024-10-08T17:40:01Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - LMD: Faster Image Reconstruction with Latent Masking Diffusion [28.54828478259779]
Masked Autoencoders (MAEs) は、一般的な自己監督型視覚学習者として、下流タスクにおいて、よりシンプルで効果的な画像再構成と転送機能を示す。
本稿では,遅延マスク拡散を用いた高速画像再構成フレームワーク LMD を提案する。
論文 参考訳(メタデータ) (2023-12-13T08:36:51Z) - HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian
Splatting [48.59338619051709]
HiFi4Gは、高密度映像からの高忠実度人間パフォーマンスレンダリングのための、明示的でコンパクトなガウスベースのアプローチである。
圧縮速度は25回程度で、1フレームあたり2MB未満である。
論文 参考訳(メタデータ) (2023-12-06T12:36:53Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - 3D Gaussian Splatting for Real-Time Radiance Field Rendering [4.320393382724066]
競争力のあるトレーニング時間を維持しながら、最先端の視覚的品質を達成するための3つの重要な要素を紹介します。
いくつかの確立したデータセット上で、最先端の視覚的品質とリアルタイムレンダリングを実証する。
論文 参考訳(メタデータ) (2023-08-08T06:37:06Z) - A Unified Compression Framework for Efficient Speech-Driven Talking-Face
Generation [5.013173132128393]
本研究は,音声駆動音声合成のための軽量モデルの開発を目的とする。
残余ブロックを除去し、Wav2Lipからチャネル幅を小さくすることで、コンパクトなジェネレータを構築する。
また, 逆学習を伴わずに, 小容量発電機を安定かつ効果的に訓練するための知識蒸留方式を提案する。
論文 参考訳(メタデータ) (2023-04-02T06:56:44Z) - Differentiable Point-Based Radiance Fields for Efficient View Synthesis [57.56579501055479]
本稿では,効率的な新規ビュー合成のための微分可能レンダリングアルゴリズムを提案する。
我々の手法は、トレーニングと推論の両方において、NeRFよりも最大300倍高速である。
ダイナミックなシーンでは,STNeRFよりも2桁早く,ほぼインタラクティブなレートでレンダリングを行う。
論文 参考訳(メタデータ) (2022-05-28T04:36:13Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。