論文の概要: HouseTour: A Virtual Real Estate A(I)gent
- arxiv url: http://arxiv.org/abs/2510.18054v1
- Date: Mon, 20 Oct 2025 19:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.545595
- Title: HouseTour: A Virtual Real Estate A(I)gent
- Title(参考訳): HouseTour:バーチャルリアルエステートA(I)gent
- Authors: Ata Çelen, Marc Pollefeys, Daniel Barath, Iro Armeni,
- Abstract要約: 本研究では,空間認識型3次元カメラ軌道と自然言語要約生成手法であるHouseTourを紹介する。
提案手法は,カメラのポーズに制約された拡散過程によってスムーズな映像トラジェクトリを生成する。
我々は3Dガウススプラッティングを用いて最終映像を合成し、軌道に沿って新しいビューを描画する。
- 参考スコア(独自算出の注目度): 80.36635722117329
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce HouseTour, a method for spatially-aware 3D camera trajectory and natural language summary generation from a collection of images depicting an existing 3D space. Unlike existing vision-language models (VLMs), which struggle with geometric reasoning, our approach generates smooth video trajectories via a diffusion process constrained by known camera poses and integrates this information into the VLM for 3D-grounded descriptions. We synthesize the final video using 3D Gaussian splatting to render novel views along the trajectory. To support this task, we present the HouseTour dataset, which includes over 1,200 house-tour videos with camera poses, 3D reconstructions, and real estate descriptions. Experiments demonstrate that incorporating 3D camera trajectories into the text generation process improves performance over methods handling each task independently. We evaluate both individual and end-to-end performance, introducing a new joint metric. Our work enables automated, professional-quality video creation for real estate and touristic applications without requiring specialized expertise or equipment.
- Abstract(参考訳): 本研究では,既存の3次元空間を表現した画像の集合から,空間認識型3次元カメラ軌道と自然言語要約を生成するHouseTourを紹介する。
幾何学的推論に苦しむ既存の視覚言語モデル(VLM)とは異なり、我々の手法は、既知のカメラのポーズに制約された拡散過程を通じて滑らかなビデオ軌跡を生成し、この情報を3次元グラウンド記述のためのVLMに統合する。
我々は3Dガウススプラッティングを用いて最終映像を合成し、軌道に沿って新しいビューを描画する。
このタスクをサポートするために、HouseTourデータセットを提示する。カメラのポーズ、3D再構成、不動産説明を含む1200以上のハウスツアービデオを含む。
実験により、テキスト生成プロセスに3Dカメラトラジェクトリを組み込むことで、各タスクを個別に扱う方法よりもパフォーマンスが向上することが示された。
個人とエンド・ツー・エンドのパフォーマンスを評価し,新しいジョイント・メトリックを導入した。
本研究は,専門的な専門知識や機器を必要とせずに,不動産・観光用ビデオの自動作成を可能にする。
関連論文リスト
- SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。