論文の概要: Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting
- arxiv url: http://arxiv.org/abs/2604.21776v2
- Date: Fri, 24 Apr 2026 04:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 13:34:22.119345
- Title: Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting
- Title(参考訳): Re shoot-Anything:Wildビデオの再撮影のためのセルフ・スーパービジョン・モデル
- Authors: Avinash Paliwal, Adithya Iyer, Shivin Yadav, Muhammad Ali Afridi, Midhun Harikumar,
- Abstract要約: インターネット規模のモノクロビデオを活用するためのフレームワークを構築した。
私たちのコアコントリビューションは、ソースビデオ、幾何アンカー、ターゲットビデオからなる擬似多視点トレーニング三脚の生成です。
提案する拡散変圧器は4Dポイントクラウド誘導アンカーを用いて,最先端の時間的整合性を実現する。
- 参考スコア(独自算出の注目度): 3.1328424544428852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise camera control for reshooting dynamic videos is bottlenecked by the severe scarcity of paired multi-view data for non-rigid scenes. We overcome this limitation with a highly scalable self-supervised framework capable of leveraging internet-scale monocular videos. Our core contribution is the generation of pseudo multi-view training triplets, consisting of a source video, a geometric anchor, and a target video. We achieve this by extracting distinct smooth random-walk crop trajectories from a single input video to serve as the source and target views. The anchor is synthetically generated by forward-warping the first frame of the source with a dense tracking field, which effectively simulates the distorted point-cloud inputs expected at inference. Because our independent cropping strategy introduces spatial misalignment and artificial occlusions, the model cannot simply copy information from the current source frame. Instead, it is forced to implicitly learn 4D spatiotemporal structures by actively routing and re-projecting missing high-fidelity textures across distinct times and viewpoints from the source video to reconstruct the target. At inference, our minimally adapted diffusion transformer utilizes a 4D point-cloud derived anchor to achieve state-of-the-art temporal consistency, robust camera control, and high-fidelity novel view synthesis on complex dynamic scenes.
- Abstract(参考訳): ダイナミックビデオの再撮影のための精密カメラ制御は、厳密でないシーンのためのペアリングされたマルチビューデータの深刻な不足によってボトルネックとなる。
この制限を、インターネット規模のモノクロビデオを活用する、高度にスケーラブルなセルフ教師付きフレームワークで克服する。
私たちのコアコントリビューションは、ソースビデオ、幾何アンカー、ターゲットビデオからなる擬似多視点トレーニング三脚の生成です。
本研究では,単一入力ビデオから異なるランダムウォーク農作物軌跡を抽出し,ソースおよびターゲットビューとして機能させることにより,これを実現する。
アンカーは、ソースの第1フレームを濃密な追跡フィールドで前方にウォープすることで合成され、推論時に期待される歪んだ点クラウド入力を効果的にシミュレートする。
我々の独立した収穫戦略は、空間的不整合と人工閉塞をもたらすため、モデルは、現在のソースフレームからの情報を単純にコピーすることはできない。
その代わりに、4次元時空間構造を暗黙的に学習し、異なる時間と視点で欠落した高忠実なテクスチャを積極的にルーティングして再投影し、ターゲットを再構築する。
推定では,4Dポイントクラウド誘導アンカーを用いて,複雑な動的シーンにおける時間的整合性,ロバストなカメラ制御,高忠実なノベルビュー合成を実現する。
関連論文リスト
- Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - ACT-R: Adaptive Camera Trajectories for Single View 3D Reconstruction [16.03389355810877]
多視点合成に適応的な視点計画法を導入する。
我々は3次元コヒーレンスを高めるために時間的一貫性を活用して一連のビューを生成する。
論文 参考訳(メタデータ) (2025-05-13T05:31:59Z) - Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。
本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-28T17:14:48Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。