論文の概要: HERO: Hierarchical Extrapolation and Refresh for Efficient World Models
- arxiv url: http://arxiv.org/abs/2508.17588v1
- Date: Mon, 25 Aug 2025 01:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.596997
- Title: HERO: Hierarchical Extrapolation and Refresh for Efficient World Models
- Title(参考訳): HERO:効率的な世界モデルのための階層的外挿とリフレッシュ
- Authors: Quanjian Song, Xinyu Wang, Donghao Zhou, Jingyu Lin, Cunjian Chen, Yue Ma, Xiu Li,
- Abstract要約: 世代駆動の世界モデルは没入型仮想環境を作るが、拡散モデルの反復的な性質のために推論が遅い。
我々は,効率的な世界モデルに適したトレーニング不要な階層加速度フレームワークHEROを提案する。
HEROは、最小品質の劣化で1.73$times$の高速化を実現し、既存の拡散加速法を著しく上回っている。
- 参考スコア(独自算出の注目度): 18.575468763483993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generation-driven world models create immersive virtual environments but suffer slow inference due to the iterative nature of diffusion models. While recent advances have improved diffusion model efficiency, directly applying these techniques to world models introduces limitations such as quality degradation. In this paper, we present HERO, a training-free hierarchical acceleration framework tailored for efficient world models. Owing to the multi-modal nature of world models, we identify a feature coupling phenomenon, wherein shallow layers exhibit high temporal variability, while deeper layers yield more stable feature representations. Motivated by this, HERO adopts hierarchical strategies to accelerate inference: (i) In shallow layers, a patch-wise refresh mechanism efficiently selects tokens for recomputation. With patch-wise sampling and frequency-aware tracking, it avoids extra metric computation and remain compatible with FlashAttention. (ii) In deeper layers, a linear extrapolation scheme directly estimates intermediate features. This completely bypasses the computations in attention modules and feed-forward networks. Our experiments show that HERO achieves a 1.73$\times$ speedup with minimal quality degradation, significantly outperforming existing diffusion acceleration methods.
- Abstract(参考訳): 世代駆動の世界モデルは没入型仮想環境を作るが、拡散モデルの反復的な性質のために推論が遅い。
近年,拡散モデルの効率化が進んでいるが,これらの手法を世界モデルに直接適用することで,品質劣化などの限界が生じている。
本稿では,効率的な世界モデルに適したトレーニング不要な階層加速度フレームワークHEROを提案する。
世界モデルのマルチモーダルな性質から,浅い層は時間的変動が強く,深い層はより安定な特徴表現をもたらすという特徴結合現象を同定する。
これを受けてHEROは階層的戦略を採用し、推論を加速する。
i) 浅い層において、パッチワイズ機構は、再計算のためのトークンを効率的に選択する。
パッチワイドサンプリングと周波数認識トラッキングにより、余分なメトリック計算を回避し、FlashAttentionと互換性を保つ。
(II)深い層では、線形補間スキームが中間特徴を直接推定する。
これにより、アテンションモジュールやフィードフォワードネットワークの計算を完全にバイパスする。
実験の結果,HEROは1.73$\times$を最小品質の劣化で達成し,既存の拡散加速法を著しく上回っていることがわかった。
関連論文リスト
- CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - Learning Phase Distortion with Selective State Space Models for Video Turbulence Mitigation [13.073844945948132]
大気の乱流は、長距離イメージングシステムにおける画像劣化の主な原因である。
多くの深層学習に基づく乱流緩和法 (TM) が提案されているが, それらは遅い, メモリ不足であり, 一般化が不十分である。
本稿では,(1)選択状態空間モデル(MambaTM)に基づく乱流緩和ネットワークと(2)学習遅延位相歪み(LPD)の2つの概念に基づく新しいTM法を提案する。
提案手法は,様々な合成および実世界のTMベンチマークにおいて,推定速度が大幅に向上した現状のネットワークを超越した手法である。
論文 参考訳(メタデータ) (2025-04-03T15:33:18Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。
我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。