論文の概要: Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding
- arxiv url: http://arxiv.org/abs/2512.14236v1
- Date: Tue, 16 Dec 2025 09:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.667053
- Title: Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding
- Title(参考訳): Elastic3D: ガイド付き遅延デコードによる制御可能なステレオビデオ変換
- Authors: Nando Metzger, Prune Truong, Goutam Bhat, Konrad Schindler, Federico Tombari,
- Abstract要約: Elastic3Dは、従来の映像を双眼鏡にアップグレードするための、制御可能な直接エンドツーエンドの方法である。
高品質のステレオビデオ出力の鍵は、ガイド付きVAEデコーダである。
- 参考スコア(独自算出の注目度): 62.69753250254731
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The growing demand for immersive 3D content calls for automated monocular-to-stereo video conversion. We present Elastic3D, a controllable, direct end-to-end method for upgrading a conventional video to a binocular one. Our approach, based on (conditional) latent diffusion, avoids artifacts due to explicit depth estimation and warping. The key to its high-quality stereo video output is a novel, guided VAE decoder that ensures sharp and epipolar-consistent stereo video output. Moreover, our method gives the user control over the strength of the stereo effect (more precisely, the disparity range) at inference time, via an intuitive, scalar tuning knob. Experiments on three different datasets of real-world stereo videos show that our method outperforms both traditional warping-based and recent warping-free baselines and sets a new standard for reliable, controllable stereo video conversion. Please check the project page for the video samples https://elastic3d.github.io.
- Abstract(参考訳): 没入型3Dコンテンツへの需要が高まり、モノクロからステレオへの自動変換が求められている。
本稿では,従来の映像を両眼にアップグレードするための,制御可能な直接エンドツーエンド手法であるElastic3Dを提案する。
我々のアプローチは、(条件付き)潜伏拡散に基づいて、明示的な深さ推定とワープによるアーティファクトを回避する。
高品質なステレオビデオ出力の鍵は、シャープでエピポーラ一貫性のあるステレオビデオ出力を保証する、新しいガイド付きVAEデコーダである。
さらに,提案手法は,直感的でスカラーなチューニングノブを用いて,推定時のステレオ効果(より正確には不均一範囲)の強度をユーザが制御することを可能にする。
実世界のステレオビデオの3つの異なるデータセットの実験により、我々の手法は従来のワーピングベースと最近のワーピングフリーベースラインの両方に優れており、信頼性の高い制御可能なステレオビデオ変換のための新しい標準を設定している。
ビデオサンプル https://elastic3d.github.io.com のプロジェクトページをご覧ください。
関連論文リスト
- StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation [108.97993219426509]
StereoWorldは、高忠実なモノクル・ツー・ステレオビデオ生成のためのエンドツーエンドフレームワークである。
我々のフレームワークは、幾何学的に認識された正規化で生成を明示的に監視しながら、単眼ビデオ入力のモデルを規定する。
大規模なトレーニングと評価を可能にするため,高精細度ステレオビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-12-10T06:50:16Z) - StereoDETR: Stereo-based Transformer for 3D Object Detection [29.652689845108046]
我々は,DETRに基づく効率的なステレオ3Dオブジェクト検出フレームワークであるStereoDETRを提案する。
単分子アプローチの精度は2倍になるが、推論速度はわずか半分である。
また、KITTIベンチマークの競合精度も達成し、歩行者およびサイクリストのサブセットに新たな最先端の結果を設定する。
論文 参考訳(メタデータ) (2025-11-24T05:38:31Z) - S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文 参考訳(メタデータ) (2025-08-11T14:50:03Z) - VoluMe -- Authentic 3D Video Calls from Live Gaussian Splat Prediction [9.570954192915005]
本稿では,1つの2次元ウェブカメラフィードから3次元ガウス復元をリアルタイムで予測する手法を提案する。
各映像フレームに独立して3D表現を条件付けすることで,映像をキャプチャー視点から忠実に再現する。
本手法は,既存の手法と比較して,視覚的品質と安定性の指標における最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-07-28T20:07:55Z) - Restereo: Diffusion stereo video generation and restoration [43.208256051997616]
ステレオビデオを生成するだけでなく、左ビデオと右ビデオの両方を1つのモデルで一貫した拡張を行う新しいパイプラインを導入する。
本手法は,比較的小さなステレオビデオデータセットを用いて微調整し,高品質な実世界のビデオに適用することができる。
論文 参考訳(メタデータ) (2025-06-06T12:14:24Z) - Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion [88.67015254278859]
ステレオ変換の詳細な探索を支援するため,高品質なトレーニングデータとベンチマークを提供するMono2Stereoデータセットを紹介した。
1) 左右のビューの違いは微妙であるが、既存のメトリクスでは全体のピクセルを考慮し、ステレオ効果に批判的な領域に集中できない。
本稿では, ステレオ効果に関する人間の判断と高い相関性が得られる新しい評価指標, Stereo Intersection-over-Union を提案する。
論文 参考訳(メタデータ) (2025-03-28T09:25:58Z) - StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。
われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-11T17:52:07Z) - Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning [41.30923253467854]
時間的特徴は複雑で多様である。
時空間モデルは、しばしばある種類のアーティファクトに強く依存し、もう一方を無視します。
ビデオは当然リソース集約だ。
論文 参考訳(メタデータ) (2024-08-30T07:49:57Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。