論文の概要: Controllable Dynamic 3D Shape Generation via 3D Trajectories and Text
- arxiv url: http://arxiv.org/abs/2606.05162v1
- Date: Wed, 03 Jun 2026 17:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.952856
- Title: Controllable Dynamic 3D Shape Generation via 3D Trajectories and Text
- Title(参考訳): 3次元軌道とテキストによる動的3次元形状生成の制御
- Authors: Jaeyeong Kim, Ines Kim, Jahyeok Koo, Seungryong Kim,
- Abstract要約: T2Moは3次元軌跡とテキストに条件付けされた制御可能な動的3次元形状生成のためのフィードフォワードフレームワークである。
本研究では,入力軌跡セットを対象物全体を覆う形状認識トークンセットにマッピングする形状認識軌道埋め込みを提案する。
- 参考スコア(独自算出の注目度): 33.77648928850077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce T2Mo, a feed-forward framework for controllable dynamic 3D shape generation conditioned on 3D trajectories and text. Due to the inherent ambiguity of language, generating precisely intended motions using text alone remains challenging. To address this, we adopt 3D trajectories as controllable spatial guidance, specifying the exact paths along which selected points should move. By combining both, T2Mo generates object motions that spatially adhere to the given trajectories while globally reflecting the text semantics. To robustly handle trajectory inputs with arbitrary configurations, ranging from dense to sparse and unevenly distributed, we further propose a shape-grounded trajectory embedding that maps an input trajectory set into a shape-aware token set covering the entire object. We conduct extensive comparisons against text-based baselines and cascaded video-based baselines that combine trajectory-guided video generation with video-to-dynamic mesh generation. Quantitative and qualitative evaluations, along with user studies, demonstrate that our approach produces motions that more faithfully follow the given prompts with higher expressiveness while preserving motion quality.
- Abstract(参考訳): 本稿では,3次元軌跡とテキストをベースとした動的3次元形状生成のためのフィードフォワードフレームワークであるT2Moを紹介する。
言語固有の曖昧さのため、テキストだけで正確に意図された動作を生成することは依然として困難である。
そこで我々は3Dトラジェクトリを制御可能な空間誘導として採用し、選択した点が移動する正確な経路を特定する。
両方を組み合わせることで、T2Moはテキストの意味をグローバルに反映しながら、与えられた軌跡に空間的に固執するオブジェクトの動きを生成する。
さらに, 物体全体を包含する形状認識トークンセットに入力された軌跡をマッピングする形状的軌跡埋め込みを提案する。
我々は、トラジェクティブ誘導ビデオ生成とビデオ-動的メッシュ生成を組み合わせたテキストベースベースラインとカスケードビデオベースラインとを広範囲に比較する。
定量的および定性的な評価は,ユーザ研究とともに,動作品質を保ちながら,与えられたプロンプトをより忠実に追従する動作を生成することを示した。
関連論文リスト
- VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction [59.303842406260124]
VGGT-Editはテキスト条件のネイティブ3Dシーン編集のためのフィードフォワードフレームワークである。
本研究では,奥行き同期テキストインジェクションを導入し,意味的指導をバックボーンの空間的ポーズと整合させる。
VGGT-Editは2Dリフトベースラインを大幅に上回り、よりシャープなオブジェクトの詳細、より強力なマルチビュー一貫性、ほぼインスタントな推論速度を生み出している。
論文 参考訳(メタデータ) (2026-05-14T17:59:04Z) - TrajVG: 3D Trajectory-Coupled Visual Geometry Learning [34.47385438436523]
TrajVGは、クロスフレームな3D対応を明示する再構築フレームワークである。
擬似2次元トラックのみを用いて,同じ結合制約を自己教師対象に再構成する。
3Dトラッキング、ポーズ推定、ポイントマップ再構成、ビデオ深度による実験は、TrajVGが現在のフィードフォワードのパフォーマンスベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-04T11:13:55Z) - Drag4D: Align Your Motion with Text-Driven 3D Scene Generation [77.79131321983677]
Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。
このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-09-26T05:23:45Z) - DiTraj: training-free trajectory control for video diffusion transformer [34.05715460730871]
軌道制御は、制御可能なビデオ生成におけるユーザフレンドリなタスクを表す。
提案するDiTrajは,DiTに適したテキスト・ビデオ生成におけるトラジェクトリ制御のためのトレーニングフリーフレームワークである。
提案手法は,映像品質とトラジェクトリ制御性の両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-26T03:53:31Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - Vision-based Discovery of Nonlinear Dynamics for 3D Moving Target [11.102585080028945]
本稿では,カメラセットが記録した生のビデオを通して,3次元移動目標に対する非線形力学の制御方程式を自動的に発見するための視覚的アプローチを提案する。
このフレームワークは、例えばビデオ内のノイズ、データ不足の原因となるターゲットの不正確な追跡など、測定データに関連する課題を効果的に処理することができる。
論文 参考訳(メタデータ) (2024-04-27T11:13:55Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。