論文の概要: SteerX: Creating Any Camera-Free 3D and 4D Scenes with Geometric Steering
- arxiv url: http://arxiv.org/abs/2503.12024v1
- Date: Sat, 15 Mar 2025 07:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.671343
- Title: SteerX: Creating Any Camera-Free 3D and 4D Scenes with Geometric Steering
- Title(参考訳): SteerX:幾何学的ステアリングでカメラ不要の3Dと4Dのシーンを作る
- Authors: Byeongjun Park, Hyojun Go, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim,
- Abstract要約: SteerXは、シーン再構成を生成プロセスに統合するゼロショット推論時ステアリング手法である。
ポーズフリーフィードフォワードシーン再構成モデルを用いて、3D/4Dシーン生成のための幾何学的報酬関数を2つ導入する。
- 参考スコア(独自算出の注目度): 20.329392012132885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in 3D/4D scene generation emphasizes the importance of physical alignment throughout video generation and scene reconstruction. However, existing methods improve the alignment separately at each stage, making it difficult to manage subtle misalignments arising from another stage. Here, we present SteerX, a zero-shot inference-time steering method that unifies scene reconstruction into the generation process, tilting data distributions toward better geometric alignment. To this end, we introduce two geometric reward functions for 3D/4D scene generation by using pose-free feed-forward scene reconstruction models. Through extensive experiments, we demonstrate the effectiveness of SteerX in improving 3D/4D scene generation.
- Abstract(参考訳): 近年の3D/4Dシーン生成の進歩は、映像生成とシーン再構成における物理的アライメントの重要性を強調している。
しかし、既存の手法では各段階のアライメントを別々に改善し、他の段階からの微妙なミスアライメントの管理が困難になる。
本稿では,シーン再構成を生成プロセスに統合するゼロショット推論時ステアリング手法であるSteerXについて述べる。
この目的のために,ポーズレスフィードフォワードシーン再構成モデルを用いて3D/4Dシーン生成のための幾何学的報酬関数を2つ導入する。
広範にわたる実験を通して,3D/4Dシーン生成におけるSteerXの有効性を実証した。
関連論文リスト
- Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes [65.76371201992654]
そこで本研究では,新しい4D再構成ベンチマークであるWideRange4Dを提案する。
このベンチマークには、空間変動が大きいリッチな4Dシーンデータが含まれており、より包括的な4D生成手法の生成能力を評価できる。
また,様々な複雑な4Dシーン再構成タスクに対して,安定かつ高品質な4D結果を生成する新しい4D再構成手法であるProgress4Dを導入する。
論文 参考訳(メタデータ) (2025-03-17T17:58:18Z) - Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos [76.07894127235058]
本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。
本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。
DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors [5.407319151576265]
本研究では2次元画像の粗い集合から360度シーンのポーズなし(カメラパラメータなしで)再構成のための生成的アプローチを提案する。
画像から画像への生成モデルを提案し、3Dシーンの新たな画像レンダリングと深度マップにおいて、欠落した詳細を描き、アーティファクトを除去する。
論文 参考訳(メタデータ) (2024-11-24T19:34:58Z) - DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。
提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文 参考訳(メタデータ) (2024-11-07T18:07:31Z) - ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Implicit Learning of Scene Geometry from Poses for Global Localization [7.077874294016776]
グローバル・ビジュアル・ローカライゼーション(Global visual localization)は、カメラの絶対的なポーズを1つの画像を用いて推定する。
既存の多くのアプローチでは、入力画像から直接6 DoFのポーズを学習する。
本稿では,これらの最小限のラベルを用いてシーンの3次元形状を学習することを提案する。
論文 参考訳(メタデータ) (2023-12-04T16:51:23Z) - Diffusion-based Generation, Optimization, and Planning in 3D Scenes [89.63179422011254]
本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。
SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
従来のモデルに比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-01-15T03:43:45Z) - PhotoScene: Photorealistic Material and Lighting Transfer for Indoor
Scenes [84.66946637534089]
PhotoSceneは、シーンの入力画像を取得し、高品質な素材と同様の照明を備えたフォトリアリスティックデジタルツインを構築するフレームワークである。
プロシージャ素材グラフを用いてシーン素材をモデル化し、そのようなグラフはフォトリアリスティックおよび解像度非依存の材料を表す。
ScanNet, SUN RGB-D, ストック写真からのオブジェクトとレイアウトの再構築について検討し, 高品質で完全に再現可能な3Dシーンを再現できることを実証した。
論文 参考訳(メタデータ) (2022-07-02T06:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。