Fugu-MT 論文翻訳(概要): Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

論文の概要: Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

arxiv url: http://arxiv.org/abs/2602.21929v1
Date: Wed, 25 Feb 2026 14:09:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.852692
Title: Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context
Title（参考訳）: ジオメトリ・アズ・コンテクスト:シーン一貫性ビデオ生成における明示的な3次元の幾何学的文脈への変換
Authors: JiaKui Hu, Jialun Liu, Liying Yang, Xinliang Zhang, Kaiwen Li, Shuang Zeng, Yuanwei Li, Haibin Huang, Chi Zhang, Yanye Lu,
Abstract要約: Scene-Consistent Video Generationは、カメラの軌跡に基づいて3Dシーンを探索するビデオを作成することを目的としている。従来の手法では、外部メモリを用いたビデオ生成モデルに一貫性がある。これらの制限を克服するために、幾何・アズ・コンテクスト”を導入します。
参考スコア（独自算出の注目度）: 33.99324999592141
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene-consistent video generation aims to create videos that explore 3D scenes based on a camera trajectory. Previous methods rely on video generation models with external memory for consistency, or iterative 3D reconstruction and inpainting, which accumulate errors during inference due to incorrect intermediary outputs, non-differentiable processes, and separate models. To overcome these limitations, we introduce ``geometry-as-context". It iteratively completes the following steps using an autoregressive camera-controlled video generation model: (1) estimates the geometry of the current view necessary for 3D reconstruction, and (2) simulates and restores novel view images rendered by the 3D scene. Under this multi-task framework, we develop the camera gated attention module to enhance the model's capability to effectively leverage camera poses. During the training phase, text contexts are utilized to ascertain whether geometric or RGB images should be generated. To ensure that the model can generate RGB-only outputs during inference, the geometry context is randomly dropped from the interleaved text-image-geometry training sequence. The method has been tested on scene video generation with one-direction and forth-and-back trajectories. The results show its superiority over previous approaches in maintaining scene consistency and camera control.
Abstract（参考訳）: Scene-Consistent Video Generationは、カメラの軌跡に基づいて3Dシーンを探索するビデオを作成することを目的としている。従来の手法では、外部メモリを用いたビデオ生成モデルや、不正確な中間出力、微分不可能なプロセス、分離されたモデルによる推論中にエラーを蓄積する反復的な3D再構成とインペインティングを頼りにしていた。これらの制限を克服するために、 ``geometry-as-context' を導入します。自動回帰カメラ制御ビデオ生成モデルを用いて,(1)3次元再構成に必要な現在のビューの形状を推定し,(2)3次元シーンでレンダリングされた新しいビューイメージをシミュレートし,復元する。このマルチタスク・フレームワークでは、カメラポーズを効果的に活用するモデルの能力を高めるために、カメラゲートアテンション・モジュールを開発する。トレーニングフェーズでは、テキストコンテキストを使用して幾何学的画像かRGB的画像かを確認する。モデルが推論中にRGBのみの出力を生成することを保証するため、図形コンテキストをインターリーブされたテキスト-画像-幾何学トレーニングシーケンスからランダムにドロップする。この手法は,一方向および前後方向の軌跡を用いたシーン映像生成でテストされている。その結果,シーンの一貫性とカメラ制御の維持において,従来のアプローチよりも優位性を示した。

関連論文リスト

Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文参考訳（メタデータ） (2026-01-02T13:04:47Z)
LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding [34.74478301165912]
本稿では,大規模3次元運転シーンを正確な形状で直接生成する手法を提案する。提案手法は, 学習した2次元画像の先行画像からのスコアの蒸留と, プロキシ幾何の生成と環境表現を組み合わせたものである。このアプローチは高い制御性を実現し、高速誘導幾何と高忠実度テクスチャと構造を実現する。
論文参考訳（メタデータ） (2025-08-26T17:04:49Z)
Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization [14.673302810271219]
幾何学的表現と高品質なテクスチャ情報を用いた3次元シーン生成のための新しい3段階フレームワークを提案する。提案手法は, 個々の3次元モデルの幾何学的精度とテクスチャ忠実度の観点から, 最先端の手法よりも優れているだけでなく, シーンレイアウト合成において大きな利点がある。
論文参考訳（メタデータ） (2025-07-20T06:59:42Z)
GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文参考訳（メタデータ） (2025-06-30T15:24:27Z)
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image [44.8172828045897]
現在のメソッドはドメイン固有の制限や低品質のオブジェクト生成に悩まされることが多い。本稿では,3次元シーンの復元と復元のための新しい手法であるCASTを提案する。
論文参考訳（メタデータ） (2025-02-18T14:29:52Z)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [100.45129752375658]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳（メタデータ） (2025-02-17T18:54:05Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文参考訳（メタデータ） (2024-04-30T17:59:40Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)
Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文参考訳（メタデータ） (2020-12-06T07:22:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。