論文の概要: The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text
- arxiv url: http://arxiv.org/abs/2512.16924v1
- Date: Thu, 18 Dec 2025 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.263183
- Title: The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text
- Title(参考訳): The World is your Canvas: Painting Promptable Events with Reference Images, Trajectories, Text
- Authors: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen,
- Abstract要約: Worldcanvasは、リッチでユーザ指向のシミュレーションを可能にする、プロンプト可能なワールドイベントのためのフレームワークである。
表現力のある世界イベント生成をサポートすることで、Worldcanvasは、受動的予測器からインタラクティブなユーザ形状のシミュレータまで、世界モデルを前進させる。
- 参考スコア(独自算出の注目度): 101.66984085525105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present WorldCanvas, a framework for promptable world events that enables rich, user-directed simulation by combining text, trajectories, and reference images. Unlike text-only approaches and existing trajectory-controlled image-to-video methods, our multimodal approach combines trajectories -- encoding motion, timing, and visibility -- with natural language for semantic intent and reference images for visual grounding of object identity, enabling the generation of coherent, controllable events that include multi-agent interactions, object entry/exit, reference-guided appearance and counterintuitive events. The resulting videos demonstrate not only temporal coherence but also emergent consistency, preserving object identity and scene despite temporary disappearance. By supporting expressive world events generation, WorldCanvas advances world models from passive predictors to interactive, user-shaped simulators. Our project page is available at: https://worldcanvas.github.io/.
- Abstract(参考訳): テキスト, トラジェクトリ, 参照画像を組み合わせることで, リッチでユーザ指向のシミュレーションを可能にする, プロンプト可能な世界イベントのためのフレームワークWorldCanvasを提案する。
テキストのみのアプローチや既存のトラジェクトリ制御のイメージ・ツー・ビデオ手法とは異なり、我々のマルチモーダルアプローチは、動き、タイミング、可視性を符号化するトラジェクトリと、オブジェクトアイデンティティの視覚的グラウンド化のための自然言語と参照画像を組み合わせることで、マルチエージェントインタラクション、オブジェクトエントリ/出力、参照誘導外観、反直感イベントを含む一貫性のある制御可能なイベントの生成を可能にします。
結果として得られたビデオは、時間的コヒーレンスだけでなく、一時的な消失にもかかわらず、オブジェクトのアイデンティティとシーンを保ちながら、創発的な一貫性を示す。
表現力のある世界イベント生成をサポートすることで、WorldCanvasは、受動的予測器からインタラクティブなユーザ形状のシミュレータまで、世界モデルを前進させる。
私たちのプロジェクトページは、https://worldcanvas.github.io/.com/で公開されています。
関連論文リスト
- UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation [51.31795451147935]
本稿では,単一のピクセル間拡散フレームワーク内での視覚的理解と視覚的生成を支援する統合生成モデルを提案する。
私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。
画像間合成と画像間理解の実験は、強いモーダルアライメントを示す。
論文 参考訳(メタデータ) (2025-11-21T03:02:10Z) - VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation [15.811034169990423]
VENTURAは、インターネットに制約された画像拡散モデルを微調整して経路計画を行う視覚制御ナビゲーションシステムである。
軽量な行動閉鎖ポリシーは、これらの視覚計画を実行可能な軌道に置き、自然言語の指示に従うインターフェースを生成する。
大規模な実世界の評価において、VENTURAは、オブジェクト到達、障害物回避、地形優先タスクに基づく最先端の基盤モデルよりも優れている。
論文 参考訳(メタデータ) (2025-10-01T19:21:28Z) - HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [30.986527559921335]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。
提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (2025-07-29T13:43:35Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。