論文の概要: StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors
- arxiv url: http://arxiv.org/abs/2512.16915v1
- Date: Thu, 18 Dec 2025 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.255301
- Title: StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors
- Title(参考訳): StereoPilot: 生成プライオリティによる統一的で効率的なステレオ変換の学習
- Authors: Guibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen,
- Abstract要約: ステレオビデオ変換のための大規模な統合データセットUniStereoを紹介する。
本稿では,対象の視点を直接合成する効率的なフィードフォワードモデルであるStereoPilotを提案する。
実験により、StereoPilotは視覚的忠実度と計算効率の両方において最先端の手法を大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 41.34827274890319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of stereoscopic displays, including VR headsets and 3D cinemas, has led to increasing demand for high-quality stereo video content. However, producing 3D videos remains costly and complex, while automatic Monocular-to-Stereo conversion is hindered by the limitations of the multi-stage ``Depth-Warp-Inpaint'' (DWI) pipeline. This paradigm suffers from error propagation, depth ambiguity, and format inconsistency between parallel and converged stereo configurations. To address these challenges, we introduce UniStereo, the first large-scale unified dataset for stereo video conversion, covering both stereo formats to enable fair benchmarking and robust model training. Building upon this dataset, we propose StereoPilot, an efficient feed-forward model that directly synthesizes the target view without relying on explicit depth maps or iterative diffusion sampling. Equipped with a learnable domain switcher and a cycle consistency loss, StereoPilot adapts seamlessly to different stereo formats and achieves improved consistency. Extensive experiments demonstrate that StereoPilot significantly outperforms state-of-the-art methods in both visual fidelity and computational efficiency. Project page: https://hit-perfect.github.io/StereoPilot/.
- Abstract(参考訳): VRヘッドセットや3Dシネマを含む立体ディスプレイの急速な成長は、高品質なステレオビデオコンテンツの需要を増大させてきた。
しかし、3Dビデオの制作はコストがかかり複雑であり、モノクロからステレオへの自動変換は複数ステージの ‘Depth-Warp-Inpaint'' (DWI) パイプラインの限界によって妨げられる。
このパラダイムは、エラーの伝播、深さの曖昧さ、および並列と収束したステレオ構成間のフォーマットの不整合に悩まされている。
これらの課題に対処するため、我々は、ステレオビデオ変換のための最初の大規模な統合データセットUniStereoを導入し、ステレオフォーマットの両方をカバーし、公正なベンチマークと堅牢なモデルトレーニングを可能にした。
このデータセットをベースとしたStereoPilotは、明確な深度マップや反復拡散サンプリングに頼ることなく、ターゲットビューを直接合成する効率的なフィードフォワードモデルである。
学習可能なドメインスイッチャーとサイクル一貫性の損失を備えたStereoPilotは、さまざまなステレオフォーマットにシームレスに対応し、一貫性の向上を実現している。
大規模な実験により、StereoPilotは視覚的忠実度と計算効率の両方において最先端の手法を大幅に上回っていることが示された。
プロジェクトページ: https://hit-perfect.github.io/StereoPilot/。
関連論文リスト
- Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding [62.69753250254731]
Elastic3Dは、従来の映像を双眼鏡にアップグレードするための、制御可能な直接エンドツーエンドの方法である。
高品質のステレオビデオ出力の鍵は、ガイド付きVAEデコーダである。
論文 参考訳(メタデータ) (2025-12-16T09:46:23Z) - StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation [108.97993219426509]
StereoWorldは、高忠実なモノクル・ツー・ステレオビデオ生成のためのエンドツーエンドフレームワークである。
我々のフレームワークは、幾何学的に認識された正規化で生成を明示的に監視しながら、単眼ビデオ入力のモデルを規定する。
大規模なトレーニングと評価を可能にするため,高精細度ステレオビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-12-10T06:50:16Z) - Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion [88.67015254278859]
ステレオ変換の詳細な探索を支援するため,高品質なトレーニングデータとベンチマークを提供するMono2Stereoデータセットを紹介した。
1) 左右のビューの違いは微妙であるが、既存のメトリクスでは全体のピクセルを考慮し、ステレオ効果に批判的な領域に集中できない。
本稿では, ステレオ効果に関する人間の判断と高い相関性が得られる新しい評価指標, Stereo Intersection-over-Union を提案する。
論文 参考訳(メタデータ) (2025-03-28T09:25:58Z) - Stereo Anything: Unifying Zero-shot Stereo Matching with Large-Scale Mixed Data [77.27700893908012]
ステレオマッチングは3次元視覚の基盤として機能し、深度回復のためのステレオ画像対間の画素ワイド対応を確立することを目的としている。
現在のモデルは、目に見えないドメインにデプロイすると、しばしば深刻なパフォーマンス劣化を示す。
データ中心のフレームワークであるStereoAnythingを導入し、既存のステレオモデルのゼロショット一般化能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-11-21T11:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。