論文の概要: DISK: Dynamic Inference SKipping for World Models
- arxiv url: http://arxiv.org/abs/2602.00440v1
- Date: Sat, 31 Jan 2026 01:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.185185
- Title: DISK: Dynamic Inference SKipping for World Models
- Title(参考訳): DISK: 世界モデルのための動的推論スキッピング
- Authors: Anugunj Naman, Gaibo Zhang, Ayushman Singh, Yaguang Zhang,
- Abstract要約: DISKは、自己回帰的世界モデルのためのトレーニング不要適応推論手法である。
我々は,高次遅延差分スキップ試験を自己回帰チェーン・オブ・フォワード体制にまで拡張する。
DISKは、L2計画誤差を維持しながら、軌道拡散の2倍のスピードアップとビデオ拡散の1.6倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 3.6879658915311992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DISK, a training-free adaptive inference method for autoregressive world models. DISK coordinates two coupled diffusion transformers for video and ego-trajectory via dual-branch controllers with cross-modal skip decisions, preserving motion-appearance consistency without retraining. We extend higher-order latent-difference skip testing to the autoregressive chain-of-forward regime and propagate controller statistics through rollout loops for long-horizon stability. When integrated into closed-loop driving rollouts on 1500 NuPlan and NuScenes samples using an NVIDIA L40S GPU, DISK achieves 2x speedup on trajectory diffusion and 1.6x speedup on video diffusion while maintaining L2 planning error, visual quality (FID/FVD), and NAVSIM PDMS scores, demonstrating practical long-horizon video-and-trajectory prediction at substantially reduced cost.
- Abstract(参考訳): 自己回帰的世界モデルのためのトレーニング不要適応推論手法であるdisKを提案する。
DISKは、ビデオとエゴ軌道の2つの結合拡散トランスフォーマーを、クロスモーダルなスキップ決定を伴うデュアルブランチコントローラを介して調整し、再トレーニングせずに動きの整合性を維持する。
我々は、高次遅延差分スキップ試験を自己回帰チェーン・オブ・フォワード方式に拡張し、長期安定のためのロールアウトループを通してコントローラ統計を伝搬する。
NVIDIA L40S GPUを用いた1500 NuPlanとNuScenesのクローズループ駆動ロールアウトに組み込むと、disKはL2計画誤差、視覚的品質(FID/FVD)、NAVSIM PDMSスコアを維持しながら、トラジェクトリ拡散の2倍のスピードアップとビデオ拡散の1.6倍のスピードアップを達成する。
関連論文リスト
- DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving [38.867860153968394]
拡散モデルは、ロボット政策学習の強力な生成技術として登場した。
本稿では,従来のマルチモードアンカーを取り入れ,拡散スケジュールを切り離す,新たな切り離された拡散ポリシーを提案する。
提案したモデルであるDiffusionDriveは、バニラ拡散ポリシーと比較して10ドル程度のデノナイジングステップの削減を実証している。
論文 参考訳(メタデータ) (2024-11-22T18:59:47Z) - Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule [50.260693393896716]
拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。
近年,より高速な生成プロセスの自動探索技術が採用されている。
拡散モデルの高速化を目的とした新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
論文 参考訳(メタデータ) (2024-09-26T06:28:05Z) - SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models [4.232258232565518]
テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で、大幅な進歩を示す。
LCM-LoRAは、様々なモデルで一度トレーニング可能で、普遍性を提供するが、アクセラレーション前後で生成されたコンテンツの一貫性を確保することはめったにない。
本稿では,革新的アクセラレーションモジュールであるSpeedUpNet(SUN)を提案し,普遍性と一貫性の課題に対処する。
論文 参考訳(メタデータ) (2023-12-13T09:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。