論文の概要: InverseCrafter: Efficient Video ReCapture as a Latent Domain Inverse Problem
- arxiv url: http://arxiv.org/abs/2512.05672v1
- Date: Fri, 05 Dec 2025 12:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.022161
- Title: InverseCrafter: Efficient Video ReCapture as a Latent Domain Inverse Problem
- Title(参考訳): InverseCrafter: 潜在ドメイン逆問題としての効率的なビデオ再キャプチャ
- Authors: Yeobin Hong, Suhyeon Lee, Hyungjin Chung, Jong Chul Ye,
- Abstract要約: InverseCrafterは、4D生成タスクを潜伏空間で解決された塗装問題として再構成する効率的な塗装逆解法である。
InverseCrafterは、ほぼゼロに近い計算オーバーヘッドを持つカメラ制御タスクにおいて、同等の新しいビュー生成と優れた測定一貫性を実現する。
- 参考スコア(独自算出の注目度): 57.18573487248607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent approaches to controllable 4D video generation often rely on fine-tuning pre-trained Video Diffusion Models (VDMs). This dominant paradigm is computationally expensive, requiring large-scale datasets and architectural modifications, and frequently suffers from catastrophic forgetting of the model's original generative priors. Here, we propose InverseCrafter, an efficient inpainting inverse solver that reformulates the 4D generation task as an inpainting problem solved in the latent space. The core of our method is a principled mechanism to encode the pixel space degradation operator into a continuous, multi-channel latent mask, thereby bypassing the costly bottleneck of repeated VAE operations and backpropagation. InverseCrafter not only achieves comparable novel view generation and superior measurement consistency in camera control tasks with near-zero computational overhead, but also excels at general-purpose video inpainting with editing. Code is available at https://github.com/yeobinhong/InverseCrafter.
- Abstract(参考訳): 制御可能な4Dビデオ生成への最近のアプローチは、しばしば微調整された事前訓練されたビデオ拡散モデル(VDM)に依存している。
この支配的なパラダイムは計算に高価であり、大規模なデータセットとアーキテクチャの変更が必要であり、しばしばモデルのオリジナルの生成前を壊滅的に忘れることに悩まされる。
本稿では, 4D 生成タスクを潜時空間で解決した塗装問題として再構成する, 効率的な塗装逆解法である InverseCrafter を提案する。
本手法のコアは,画素空間劣化演算子を連続的なマルチチャネル潜伏マスクに符号化する原理的機構であり,繰り返し発生するVAE演算とバックプロパゲーションのボトルネックを回避できる。
InverseCrafterは、ほぼゼロに近い計算オーバーヘッドを持つカメラ制御タスクにおいて、同等の斬新なビュー生成と優れた測定一貫性を達成するだけでなく、編集による汎用ビデオのインペイントにも優れる。
コードはhttps://github.com/yeobinhong/InverseCrafter.comで入手できる。
関連論文リスト
- Efficiently Reconstructing Dynamic Scenes One D4RT at a Time [54.67332582569525]
本稿では、このタスクを効率的に解くために設計された、シンプルながら強力なフィードフォワードモデルであるD4RTを紹介する。
我々のデコードインタフェースにより、モデルは独立して、空間と時間の任意の点の3D位置を柔軟にプローブすることができる。
提案手法は,従来の手法よりも広い範囲の4次元再構成作業に優れることを示す。
論文 参考訳(メタデータ) (2025-12-09T18:57:21Z) - UniVerse: Unleashing the Scene Prior of Video Diffusion Models for Robust Radiance Field Reconstruction [73.29048162438797]
ビデオ拡散モデルに基づくロバストな再構築のための統一フレームワークUniVerseを紹介する。
具体的には、UniVerseはまず、一貫性のない画像を最初のビデオに変換し、その後、特別に設計されたビデオ拡散モデルを使って、それらを一貫したイメージに復元する。
合成と実世界の両方のデータセットを用いた実験は,頑健な再構築において,我々の手法の強い一般化能力と優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-02T04:50:18Z) - DiTPainter: Efficient Video Inpainting with Diffusion Transformers [35.1896530415315]
Diffusion Transformer (DiT) を用いたエンド・ツー・エンドの映像インペイントモデル DiTPainter を提案する。
DiTPainterは、ビデオインペイント用に設計された効率的なトランスフォーマーネットワークを使用しており、大きな事前訓練されたモデルから初期化するのではなく、スクラッチからトレーニングされている。
実験により、DiTPainterは、高品質で時空間整合性の良い既存のビデオ塗装アルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-22T07:36:45Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。