論文の概要: Any4D: Open-Prompt 4D Generation from Natural Language and Images
- arxiv url: http://arxiv.org/abs/2511.18746v1
- Date: Mon, 24 Nov 2025 04:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.013221
- Title: Any4D: Open-Prompt 4D Generation from Natural Language and Images
- Title(参考訳): Any4D:自然言語と画像によるオープンプロンプト4D生成
- Authors: Hao Li, Qiao Sun,
- Abstract要約: bfPrimitive Embodied World Models (PEWM) を提案する。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
- 参考スコア(独自算出の注目度): 7.541641344819342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While video-generation-based embodied world models have gained increasing attention, their reliance on large-scale embodied interaction data remains a key bottleneck. The scarcity, difficulty of collection, and high dimensionality of embodied data fundamentally limit the alignment granularity between language and actions and exacerbate the challenge of long-horizon video generation--hindering generative models from achieving a \textit{"GPT moment"} in the embodied domain. There is a naive observation: \textit{the diversity of embodied data far exceeds the relatively small space of possible primitive motions}. Based on this insight, we propose \textbf{Primitive Embodied World Models} (PEWM), which restricts video generation to fixed shorter horizons, our approach \textit{1) enables} fine-grained alignment between linguistic concepts and visual representations of robotic actions, \textit{2) reduces} learning complexity, \textit{3) improves} data efficiency in embodied data collection, and \textit{4) decreases} inference latency. By equipping with a modular Vision-Language Model (VLM) planner and a Start-Goal heatmap Guidance mechanism (SGG), PEWM further enables flexible closed-loop control and supports compositional generalization of primitive-level policies over extended, complex tasks. Our framework leverages the spatiotemporal vision priors in video models and the semantic awareness of VLMs to bridge the gap between fine-grained physical interaction and high-level reasoning, paving the way toward scalable, interpretable, and general-purpose embodied intelligence.
- Abstract(参考訳): ビデオジェネレーションベースのエンボディドワールドモデルは注目されているが、大規模なエンボディドインタラクションデータへの依存は依然として重要なボトルネックである。
エンボディド・ドメインにおける「textit{"GPT moment"」の達成による生成モデルの改善により、エンボディド・データの不足、コレクションの難しさ、および高次元性が言語と行動間のアライメントの粒度を根本的に制限し、ロングホライゾン・ビデオ生成の課題を悪化させる。
埋め込みデータの多様性は、可能な原始運動の比較的小さな空間をはるかに超える。
この知見に基づいて、ビデオ生成を短い地平線に制限する \textbf{Primitive Embodied World Models} (PEWM) を提案し、我々のアプローチである \textit{1) により、言語概念とロボット行動の視覚的表現との微粒なアライメントを可能にし、 \textit{2) は学習複雑性を低減し、 \textit{3) は埋め込みデータ収集におけるデータ効率を改善し、 \textit{4) は推論遅延を減少させる。
モジュール型ビジョンランゲージモデル(VLM)とスタートゴールヒートマップ誘導機構(SGG)を備えることにより、PEWMはさらに柔軟なクローズループ制御を可能にし、拡張された複雑なタスクに対するプリミティブレベルポリシーの合成一般化をサポートする。
我々のフレームワークは、ビデオモデルにおける時空間的ビジョンとVLMのセマンティックな認識を利用して、細粒度の物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
関連論文リスト
- Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - ERMV: Editing 4D Robotic Multi-view images to enhance embodied agents [14.75400720374728]
ERMV(Robotic Multi-View 4D data framework)は、単一フレームの編集とロボットの状態条件に基づいて、全マルチビューシーケンスを効率的に編集する。
創発されたデータは、シミュレーションと実世界の両方の環境でモデルの堅牢性とガイダンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-07-23T12:41:11Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - TextOCVP: Object-Centric Video Prediction with Language Guidance [16.513260843365902]
TextOCVPは、テキスト記述によってガイドされるビデオ予測のためのオブジェクト中心モデルである。
構造化されたオブジェクト中心表現は、新しいシーン構成に対して優れたロバスト性を提供することを示す。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。