論文の概要: Every Camera Effect, Every Time, All at Once: 4D Gaussian Ray Tracing for Physics-based Camera Effect Data Generation
- arxiv url: http://arxiv.org/abs/2509.10759v1
- Date: Sat, 13 Sep 2025 00:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.766308
- Title: Every Camera Effect, Every Time, All at Once: 4D Gaussian Ray Tracing for Physics-based Camera Effect Data Generation
- Title(参考訳): 物理ベースのカメラエフェクトデータ生成のための4Dガウス線トレーシング
- Authors: Yi-Ruei Liu, You-Zhe Xie, Yu-Hsiang Hsu, I-Sheng Fang, Yu-Lun Liu, Jun-Cheng Chen,
- Abstract要約: カメラエフェクトシミュレーションのための新しい2段階パイプラインである4Dガウス線追跡(4D-GRT)を提案する。
マルチビュービデオが与えられた4D-GRTは、まず動的シーンを再構成し、その後にレイトレーシングを適用して、制御可能で物理的に正確なカメラ効果を持つビデオを生成する。
室内環境における8つの合成動的シーンを4つのカメラ効果のベンチマークとして構築し、カメラ効果による生成映像の評価を行う。
- 参考スコア(独自算出の注目度): 15.369874128344135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common computer vision systems typically assume ideal pinhole cameras but fail when facing real-world camera effects such as fisheye distortion and rolling shutter, mainly due to the lack of learning from training data with camera effects. Existing data generation approaches suffer from either high costs, sim-to-real gaps or fail to accurately model camera effects. To address this bottleneck, we propose 4D Gaussian Ray Tracing (4D-GRT), a novel two-stage pipeline that combines 4D Gaussian Splatting with physically-based ray tracing for camera effect simulation. Given multi-view videos, 4D-GRT first reconstructs dynamic scenes, then applies ray tracing to generate videos with controllable, physically accurate camera effects. 4D-GRT achieves the fastest rendering speed while performing better or comparable rendering quality compared to existing baselines. Additionally, we construct eight synthetic dynamic scenes in indoor environments across four camera effects as a benchmark to evaluate generated videos with camera effects.
- Abstract(参考訳): 一般的なコンピュータビジョンシステムは理想のピンホールカメラを前提としているが、魚眼の歪みやローリングシャッターのような現実世界のカメラ効果に直面すると失敗する。
既存のデータ生成アプローチは、高コスト、シム・トゥ・リアルのギャップ、あるいはカメラ効果を正確にモデル化できないのいずれかに悩まされる。
このボトルネックに対処するため、4Dガウス線追跡(4D-GRT)を提案する。
マルチビュービデオが与えられた4D-GRTは、まず動的シーンを再構成し、その後にレイトレーシングを適用して、制御可能で物理的に正確なカメラ効果を持つビデオを生成する。
4D-GRTは、既存のベースラインと比較して、より良い、または同等のレンダリング品質を保ちながら、最速のレンダリング速度を達成する。
さらに,室内環境における8つの合成動的シーンを4つのカメラ効果のベンチマークとして構築し,映像をカメラ効果で評価する。
関連論文リスト
- Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。
この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。
最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文 参考訳(メタデータ) (2026-01-02T13:04:47Z) - SWiT-4D: Sliding-Window Transformer for Lossless and Parameter-Free Temporal 4D Generation [30.72482055095692]
SWiT-4Dは、損失のないパラメータフリーの時間的4Dメッシュ生成のためのスライディング・ウィンドウ変換器である。
SWiT-4D は任意の Diffusion Transformer (DiT) ベースの Image-to-3D ジェネレータとシームレスに統合される。
高忠実度幾何と安定した時間的整合性を実現し、非常に限られた4D監視下での実用的展開可能性を示す。
論文 参考訳(メタデータ) (2025-12-11T17:54:31Z) - BulletTime: Decoupled Control of Time and Camera Pose for Video Generation [48.835425748367875]
カメラポーズからシーンダイナミクスを明示的に分離する4D制御可能な映像拡散フレームワークを提案する。
本モデルは,多様なタイミングパターンとカメラ軌道をまたいだ実世界の4D制御を実現する。
論文 参考訳(メタデータ) (2025-12-04T18:40:52Z) - Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image [88.71287865590273]
そこでTrajScene-60Kについて紹介する。
拡散型4次元シーン軌道生成装置(4D-STraG)を提案する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-Vi)を提案する。
論文 参考訳(メタデータ) (2025-12-04T17:59:10Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting [83.5106058182799]
SEE4Dは, カジュアルビデオから4次元世界モデリングを行うための, ポーズのないトラジェクトリ・ツー・カメラ・フレームワークである。
モデル内のビュー条件ビデオは、現実的に合成された画像を認知する前に、ロバストな幾何学を学ぶために訓練される。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
論文 参考訳(メタデータ) (2025-10-30T17:59:39Z) - 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos [29.061337554486897]
動的シーン再構成のための4次元ガウス型トランスフォーマーモデルである4DGTを提案する。
4D Gaussian を誘導バイアスとして用い、4DGT は静的および動的成分を統一する。
我々のモデルでは64個のフレームを回転風で連続的に処理し、現場で一貫した4Dガウスを予測している。
論文 参考訳(メタデータ) (2025-06-09T17:59:59Z) - GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。
モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。
プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文 参考訳(メタデータ) (2025-01-05T23:55:33Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [55.704264233274294]
ぼやけたモノクロ映像から高品質な4Dモデルを再構成するためのDeblur4DGSを提案する。
我々は露光時間内の連続的動的表現を露光時間推定に変換する。
Deblur4DGSは、新規なビュー合成以外にも、複数の視点からぼやけたビデオを改善するために応用できる。
論文 参考訳(メタデータ) (2024-12-09T12:02:11Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。