論文の概要: IDCNet: Guided Video Diffusion for Metric-Consistent RGBD Scene Generation with Precise Camera Control
- arxiv url: http://arxiv.org/abs/2508.04147v1
- Date: Wed, 06 Aug 2025 07:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.584275
- Title: IDCNet: Guided Video Diffusion for Metric-Consistent RGBD Scene Generation with Precise Camera Control
- Title(参考訳): IDCNet:精密カメラ制御による一貫したRGBDシーン生成のためのガイド付きビデオ拡散
- Authors: Lijuan Liu, Wenfa Li, Dongbo Zhang, Shuo Wang, Shaohui Jiao,
- Abstract要約: IDC-Netは、明示的なカメラ軌道制御の下でRGB-Dビデオシーケンスを生成するために設計された新しいフレームワークである。
IDC-Netは、生成したシーンシーケンスの視覚的品質と幾何学的整合性の両方において、最先端のアプローチよりも改善されていることを示す。
- 参考スコア(独自算出の注目度): 11.830304371371968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present IDC-Net (Image-Depth Consistency Network), a novel framework designed to generate RGB-D video sequences under explicit camera trajectory control. Unlike approaches that treat RGB and depth generation separately, IDC-Net jointly synthesizes both RGB images and corresponding depth maps within a unified geometry-aware diffusion model. The joint learning framework strengthens spatial and geometric alignment across frames, enabling more precise camera control in the generated sequences. To support the training of this camera-conditioned model and ensure high geometric fidelity, we construct a camera-image-depth consistent dataset with metric-aligned RGB videos, depth maps, and accurate camera poses, which provides precise geometric supervision with notably improved inter-frame geometric consistency. Moreover, we introduce a geometry-aware transformer block that enables fine-grained camera control, enhancing control over the generated sequences. Extensive experiments show that IDC-Net achieves improvements over state-of-the-art approaches in both visual quality and geometric consistency of generated scene sequences. Notably, the generated RGB-D sequences can be directly feed for downstream 3D Scene reconstruction tasks without extra post-processing steps, showcasing the practical benefits of our joint learning framework. See more at https://idcnet-scene.github.io.
- Abstract(参考訳): IDC-Net(Image-Depth Consistency Network)は,RGB-Dビデオシーケンスを明示的なカメラ軌道制御下で生成する新しいフレームワークである。
RGBと深度生成を別々に扱うアプローチとは異なり、IDC-Netは統合幾何認識拡散モデルにおいて、RGB画像と対応する深度マップの両方を共同で合成する。
共同学習フレームワークはフレーム間の空間的および幾何学的アライメントを強化し、生成されたシーケンスのより正確なカメラ制御を可能にする。
このカメラ条件付きモデルのトレーニングを支援し、高い幾何学的忠実度を確保するため、距離対応RGBビデオ、深度マップ、正確なカメラポーズを用いたカメラ画像深度一貫したデータセットを構築し、フレーム間の幾何整合性を顕著に改善した正確な幾何学的監督を提供する。
さらに、細粒度カメラ制御が可能な幾何対応トランスフォーマーブロックを導入し、生成されたシーケンスの制御を強化する。
広汎な実験により、IDC-Netは、生成したシーンシーケンスの視覚的品質と幾何学的整合性の両方において、最先端のアプローチよりも改善されていることが示された。
特に、生成したRGB-Dシーケンスは、余分な後処理ステップを伴わずに、下流3次元シーン再構築タスクに直接供給することができ、共同学習フレームワークの実用的メリットを示す。
詳しくはhttps://idcnet-scene.github.ioを参照。
関連論文リスト
- CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image [44.8172828045897]
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。
本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
論文 参考訳(メタデータ) (2025-02-18T14:29:52Z) - Discovering an Image-Adaptive Coordinate System for Photography Processing [51.164345878060956]
曲線演算を行う前にRGB色空間における画像適応座標系を学習するための新しいアルゴリズム IAC を提案する。
このエンドツーエンドのトレーニング可能なアプローチにより、共同で学習した画像適応座標系と曲線を用いて、画像の効率よく調整できる。
論文 参考訳(メタデータ) (2025-01-11T06:20:07Z) - GenRC: Generative 3D Room Completion from Sparse Image Collections [17.222652213723485]
GenRCは、高忠実度テクスチャを備えたルームスケールの3Dメッシュを完成させる、自動トレーニングフリーパイプラインである。
E-Diffusionは、大域幾何学と外観整合性を保証するビュー一貫性パノラマRGBD画像を生成する。
GenRCは、ScanNetとARKitScenesデータセットのほとんどの外観と幾何学的メトリクスの下で、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-17T18:10:40Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - PerLDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
本稿では,3次元幾何学的情報を完全に活用したストリートビュー画像生成手法であるPerLDiffを紹介する。
PerLDiffは、ネットワーク学習プロセス内で正確なオブジェクトレベル制御でストリートビュー画像の生成をガイドするために、3次元の幾何学的事前情報を利用する。
PerLDiffはNuScenesとKITTIデータセット上での制御可能な生成の精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-07-08T16:46:47Z) - SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - FusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything [1.5728609542259502]
本稿では,RGB-D画像におけるオブジェクトの堅牢な3次元セグメンテーションに適応した,徹底的なパイプラインであるFusionVisionを紹介する。
提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。
これらのコンポーネント間の相乗効果と3次元シーン理解への統合により、オブジェクトの検出とセグメンテーションの密接な融合が保証される。
論文 参考訳(メタデータ) (2024-02-29T22:59:27Z) - EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [60.48134767838629]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - ODAM: Object Detection, Association, and Mapping using Posed RGB Video [36.16010611723447]
ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。
提案システムは,ディープラーニングのフロントエンドを用いて,与えられたRGBフレームから3Dオブジェクトを検出し,グラフニューラルネットワーク(GNN)を用いてグローバルなオブジェクトベースマップに関連付ける。
論文 参考訳(メタデータ) (2021-08-23T13:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。