論文の概要: LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE
- arxiv url: http://arxiv.org/abs/2509.21790v1
- Date: Fri, 26 Sep 2025 02:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.13764
- Title: LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE
- Title(参考訳): LongScape: コンテキスト認識型MoEによる長軸エンボディードワールドモデルの改善
- Authors: Yu Shang, Lei Jin, Yiding Ma, Xin Zhang, Chen Gao, Wei Wu, Yong Li,
- Abstract要約: LongScapeは、チャンク内拡散とチャンク間自己回帰因果生成を組み合わせたハイブリッドフレームワークである。
私たちの中心となるイノベーションは、ロボットアクションのセマンティックコンテキストに基づいてビデオを分割するアクションガイド付き可変長チャンキングメカニズムです。
- 参考スコア(独自算出の注目度): 16.561410415129778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based world models hold significant potential for generating high-quality embodied manipulation data. However, current video generation methods struggle to achieve stable long-horizon generation: classical diffusion-based approaches often suffer from temporal inconsistency and visual drift over multiple rollouts, while autoregressive methods tend to compromise on visual detail. To solve this, we introduce LongScape, a hybrid framework that adaptively combines intra-chunk diffusion denoising with inter-chunk autoregressive causal generation. Our core innovation is an action-guided, variable-length chunking mechanism that partitions video based on the semantic context of robotic actions. This ensures each chunk represents a complete, coherent action, enabling the model to flexibly generate diverse dynamics. We further introduce a Context-aware Mixture-of-Experts (CMoE) framework that adaptively activates specialized experts for each chunk during generation, guaranteeing high visual quality and seamless chunk transitions. Extensive experimental results demonstrate that our method achieves stable and consistent long-horizon generation over extended rollouts. Our code is available at: https://github.com/tsinghua-fib-lab/Longscape.
- Abstract(参考訳): ビデオベースの世界モデルは、高品質な操作データを生成する大きな可能性を秘めている。
古典的拡散に基づくアプローチは、時間的不整合と複数のロールアウトに対する視覚的ドリフトに悩まされることが多いが、自己回帰的手法は視覚的詳細を妥協する傾向がある。
この問題を解決するためにLongScapeは、チャンク内拡散を適応的に結合し、チャンク間自己回帰因果生成を行うハイブリッドフレームワークである。
私たちの中心となるイノベーションは、ロボットアクションのセマンティックコンテキストに基づいてビデオを分割するアクションガイド付き可変長チャンキングメカニズムです。
これにより、各チャンクが完全なコヒーレントな動作を表現でき、モデルが柔軟に多様なダイナミクスを生成できる。
さらに,CMOE(Context-aware Mixture-of-Experts)フレームワークを導入し,各チャンクの専門家を適応的に活性化し,高い視覚的品質とシームレスなチャンク遷移を保証する。
拡張ロールアウトによる安定かつ一貫したロングホライゾン生成が得られた。
私たちのコードは、https://github.com/tsinghua-fib-lab/Longscape.comで利用可能です。
関連論文リスト
- MoCA: Identity-Preserving Text-to-Video Generation via Mixture of Cross Attention [20.494388126869424]
MoCA は Diffusion Transformer (DiT) のバックボーン上に構築されたビデオ拡散モデルである。
我々のフレームワークは、各DiTブロックにMoCA層を埋め込むことで、フレーム間のID整合性を改善する。
また、Latent Video Perceptual Lossを組み込んで、ビデオフレーム間のアイデンティティの一貫性と細かな詳細性を高める。
論文 参考訳(メタデータ) (2025-08-05T03:24:08Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [24.48220892418698]
FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。
FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
論文 参考訳(メタデータ) (2025-06-30T18:11:21Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。