論文の概要: Choreographing a World of Dynamic Objects
- arxiv url: http://arxiv.org/abs/2601.04194v1
- Date: Wed, 07 Jan 2026 18:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.763461
- Title: Choreographing a World of Dynamic Objects
- Title(参考訳): 動的オブジェクトの世界を振り返る
- Authors: Yanzhe Lyu, Chen Geng, Karthik Dharmarajan, Yunzhi Zhang, Hadi Alzayer, Shangzhe Wu, Jiajun Wu,
- Abstract要約: 動的オブジェクトやシーンのCHOReographing CHORDのための汎用生成パイプラインCHORDを提案する。
我々の手法は普遍的で、多義的で、カテゴリーに依存しない。
多様な多体4Dダイナミックスを生成する実験を行ない,その有効性を実証する。
- 参考スコア(独自算出の注目度): 31.258452179306563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic objects in our physical 4D (3D + time) world are constantly evolving, deforming, and interacting with other objects, leading to diverse 4D scene dynamics. In this paper, we present a universal generative pipeline, CHORD, for CHOReographing Dynamic objects and scenes and synthesizing this type of phenomena. Traditional rule-based graphics pipelines to create these dynamics are based on category-specific heuristics, yet are labor-intensive and not scalable. Recent learning-based methods typically demand large-scale datasets, which may not cover all object categories in interest. Our approach instead inherits the universality from the video generative models by proposing a distillation-based pipeline to extract the rich Lagrangian motion information hidden in the Eulerian representations of 2D videos. Our method is universal, versatile, and category-agnostic. We demonstrate its effectiveness by conducting experiments to generate a diverse range of multi-body 4D dynamics, show its advantage compared to existing methods, and demonstrate its applicability in generating robotics manipulation policies. Project page: https://yanzhelyu.github.io/chord
- Abstract(参考訳): 私たちの物理的4D(3D + Time)世界の動的オブジェクトは、常に進化し、変形し、他のオブジェクトと相互作用し、多様な4Dシーンのダイナミクスをもたらす。
本稿では、動的オブジェクトやシーンをCHOReographing CHOReographingで生成し、このような現象を合成するための共通生成パイプラインCHORDを提案する。
これらのダイナミクスを作成するための従来のルールベースのグラフィクスパイプラインは、カテゴリ固有のヒューリスティックに基づいているが、労働集約的であり、スケーラブルではない。
最近の学習ベースの手法は一般的に大規模なデータセットを必要とするが、関心のあるすべての対象カテゴリをカバーするものではない。
提案手法は, 2次元ビデオのユーレリア表現に隠されたラグランジアン運動情報を抽出するために蒸留パイプラインを提案することによって, ビデオ生成モデルから普遍性を継承する。
我々の手法は普遍的で、多義的で、カテゴリーに依存しない。
多様な多体4Dダイナミックスを創出するための実験を行い、既存の手法と比較してその優位性を示し、ロボット操作ポリシーの生成に適用可能であることを示す。
プロジェクトページ:https://yanzhelyu.github.io/chord
関連論文リスト
- VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。
当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。
これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文 参考訳(メタデータ) (2026-01-08T17:28:52Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - DAViD: Modeling Dynamic Affordance of 3D Objects Using Pre-trained Video Diffusion Models [9.103840202072336]
本稿では,様々な対象対象カテゴリにまたがって動的アフォーダンスを学習するための新しいフレームワークを提案する。
4D HOIデータセットの不足に対処するために, 合成した4D HOIサンプルから3次元ダイナミックアベイランスを学習する。
生成的4次元物体相互作用モデルであるDAViDがHOI動作のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-14T18:59:59Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。