論文の概要: Any4D: Open-Prompt 4D Generation from Natural Language and Images
- arxiv url: http://arxiv.org/abs/2511.18746v1
- Date: Mon, 24 Nov 2025 04:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.013221
- Title: Any4D: Open-Prompt 4D Generation from Natural Language and Images
- Title(参考訳): Any4D:自然言語と画像によるオープンプロンプト4D生成
- Authors: Hao Li, Qiao Sun,
- Abstract要約: bfPrimitive Embodied World Models (PEWM) を提案する。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
- 参考スコア(独自算出の注目度): 7.541641344819342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While video-generation-based embodied world models have gained increasing attention, their reliance on large-scale embodied interaction data remains a key bottleneck. The scarcity, difficulty of collection, and high dimensionality of embodied data fundamentally limit the alignment granularity between language and actions and exacerbate the challenge of long-horizon video generation--hindering generative models from achieving a \textit{"GPT moment"} in the embodied domain. There is a naive observation: \textit{the diversity of embodied data far exceeds the relatively small space of possible primitive motions}. Based on this insight, we propose \textbf{Primitive Embodied World Models} (PEWM), which restricts video generation to fixed shorter horizons, our approach \textit{1) enables} fine-grained alignment between linguistic concepts and visual representations of robotic actions, \textit{2) reduces} learning complexity, \textit{3) improves} data efficiency in embodied data collection, and \textit{4) decreases} inference latency. By equipping with a modular Vision-Language Model (VLM) planner and a Start-Goal heatmap Guidance mechanism (SGG), PEWM further enables flexible closed-loop control and supports compositional generalization of primitive-level policies over extended, complex tasks. Our framework leverages the spatiotemporal vision priors in video models and the semantic awareness of VLMs to bridge the gap between fine-grained physical interaction and high-level reasoning, paving the way toward scalable, interpretable, and general-purpose embodied intelligence.
- Abstract(参考訳): ビデオジェネレーションベースのエンボディドワールドモデルは注目されているが、大規模なエンボディドインタラクションデータへの依存は依然として重要なボトルネックである。
エンボディド・ドメインにおける「textit{"GPT moment"」の達成による生成モデルの改善により、エンボディド・データの不足、コレクションの難しさ、および高次元性が言語と行動間のアライメントの粒度を根本的に制限し、ロングホライゾン・ビデオ生成の課題を悪化させる。
埋め込みデータの多様性は、可能な原始運動の比較的小さな空間をはるかに超える。
この知見に基づいて、ビデオ生成を短い地平線に制限する \textbf{Primitive Embodied World Models} (PEWM) を提案し、我々のアプローチである \textit{1) により、言語概念とロボット行動の視覚的表現との微粒なアライメントを可能にし、 \textit{2) は学習複雑性を低減し、 \textit{3) は埋め込みデータ収集におけるデータ効率を改善し、 \textit{4) は推論遅延を減少させる。
モジュール型ビジョンランゲージモデル(VLM)とスタートゴールヒートマップ誘導機構(SGG)を備えることにより、PEWMはさらに柔軟なクローズループ制御を可能にし、拡張された複雑なタスクに対するプリミティブレベルポリシーの合成一般化をサポートする。
我々のフレームワークは、ビデオモデルにおける時空間的ビジョンとVLMのセマンティックな認識を利用して、細粒度の物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
関連論文リスト
- Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - RISE-Video: Can Video Generators Decode Implicit World Rules? [71.92434352963427]
テキスト画像合成(TI2V)の先駆的推論指向ベンチマークであるRISE-Videoを提案する。
RISE-Videoは、8つの厳格なカテゴリにまたがる、細心の注意深い人手によるサンプル467種からなる。
本研究では,LMM(Large Multimodal Models)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-05T18:36:10Z) - TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。
提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - ERMV: Editing 4D Robotic Multi-view images to enhance embodied agents [14.75400720374728]
ERMV(Robotic Multi-View 4D data framework)は、単一フレームの編集とロボットの状態条件に基づいて、全マルチビューシーケンスを効率的に編集する。
創発されたデータは、シミュレーションと実世界の両方の環境でモデルの堅牢性とガイダンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-07-23T12:41:11Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - TextOCVP: Object-Centric Video Prediction with Language Guidance [16.513260843365902]
TextOCVPは、テキスト記述によってガイドされるビデオ予測のためのオブジェクト中心モデルである。
構造化されたオブジェクト中心表現は、新しいシーン構成に対して優れたロバスト性を提供することを示す。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。