論文の概要: Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training
- arxiv url: http://arxiv.org/abs/2509.06723v1
- Date: Mon, 08 Sep 2025 14:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.184613
- Title: Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training
- Title(参考訳): テストタイムトレーニングによるゼロショット3次元軌道案内画像生成
- Authors: Ruicheng Zhang, Jun Zhou, Zunnan Xu, Zihao Liu, Jiehui Huang, Mingyang Zhang, Yu Sun, Xiu Li,
- Abstract要約: Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
- 参考スコア(独自算出の注目度): 27.251232052868033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trajectory-Guided image-to-video (I2V) generation aims to synthesize videos that adhere to user-specified motion instructions. Existing methods typically rely on computationally expensive fine-tuning on scarce annotated datasets. Although some zero-shot methods attempt to trajectory control in the latent space, they may yield unrealistic motion by neglecting 3D perspective and creating a misalignment between the manipulated latents and the network's noise predictions. To address these challenges, we introduce Zo3T, a novel zero-shot test-time-training framework for trajectory-guided generation with three core innovations: First, we incorporate a 3D-Aware Kinematic Projection, leveraging inferring scene depth to derive perspective-correct affine transformations for target regions. Second, we introduce Trajectory-Guided Test-Time LoRA, a mechanism that dynamically injects and optimizes ephemeral LoRA adapters into the denoising network alongside the latent state. Driven by a regional feature consistency loss, this co-adaptation effectively enforces motion constraints while allowing the pre-trained model to locally adapt its internal representations to the manipulated latent, thereby ensuring generative fidelity and on-manifold adherence. Finally, we develop Guidance Field Rectification, which refines the denoising evolutionary path by optimizing the conditional guidance field through a one-step lookahead strategy, ensuring efficient generative progression towards the target trajectory. Zo3T significantly enhances 3D realism and motion accuracy in trajectory-controlled I2V generation, demonstrating superior performance over existing training-based and zero-shot approaches.
- Abstract(参考訳): Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
既存の手法は通常、少ない注釈付きデータセットを計算的に高価な微調整に頼っている。
いくつかのゼロショット法は、潜在空間における軌道制御を試みているが、3次元視点を無視して、操作された被写体とネットワークのノイズ予測との不一致を生じさせることで非現実的な動きを生じさせる。
これらの課題に対処するために、Zo3Tは、軌道誘導型世代のための新しいゼロショットテストタイムトレーニングフレームワークで、3つの中心的革新点がある: まず、ターゲット領域に対する視点-正確なアフィン変換を導出するためにシーン深さの推測を活用する3D-Aware Kinematic Projectionを組み込む。
第二に、Trajectory-Guided Test-Time LoRAは、潜伏状態と並行してデノナイズネットワークに一時的なLoRAアダプタを動的に注入し、最適化するメカニズムである。
局所的な特徴の整合性損失によって駆動されるこの共適応は、事前訓練されたモデルが内部表現を操作された潜伏剤に局所的に適応させ、生成的忠実さとオンマンフォールドの付着性を確保することを可能にしながら、運動制約を効果的に強制する。
最後に,1段階のルックアヘッド戦略により条件付き誘導場を最適化し,目標軌道への効率的な生成進行を確保することにより,進化経路を洗練させる誘導場整流法を開発した。
Zo3Tは、軌道制御されたI2V生成における3次元リアリズムと運動精度を大幅に向上させ、既存のトレーニングベースおよびゼロショットアプローチよりも優れた性能を示す。
関連論文リスト
- T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates [29.598249500198904]
Trajectory-Guided Generative Video Coding (dubed TGVC)は、低レベルなモーショントラッキングと高レベルなセマンティック理解を橋渡しする。
本フレームワークは,既存のテキスト誘導方式よりも高精度な動作制御を実現する。
論文 参考訳(メタデータ) (2025-07-10T11:01:58Z) - EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。
本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。
動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。
最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文 参考訳(メタデータ) (2025-03-14T13:15:54Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - Driving View Synthesis on Free-form Trajectories with Generative Prior [39.24591650300784]
DriveXは、新しいフリーフォーム駆動ビュー合成フレームワークである。
生成を最適化中に3次元ガウスモデルに蒸留する。
記録された軌道を超える高品質なビュー合成をリアルタイムで達成する。
論文 参考訳(メタデータ) (2024-12-02T17:07:53Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - An Effective Motion-Centric Paradigm for 3D Single Object Tracking in
Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。
現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。
我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-21T17:28:44Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。