論文の概要: Lightweight Multiplane Images Network for Real-Time Stereoscopic Conversion from Planar Video
- arxiv url: http://arxiv.org/abs/2412.03102v1
- Date: Wed, 04 Dec 2024 08:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:14.694133
- Title: Lightweight Multiplane Images Network for Real-Time Stereoscopic Conversion from Planar Video
- Title(参考訳): 平面映像からのリアルタイム立体視変換のための軽量多面体画像ネットワーク
- Authors: Shanding Diao, Yang Zhao, Yuan Chen, Zhao Zhang, Wei Jia, Ronggang Wang,
- Abstract要約: 本稿では,Multi-plane Image(MPI)に基づくリアルタイム立体変換ネットワークを提案する。
暗黙的に深度認識機能を抽出するために、軽量な深度セマンティックブランチを使用している。
いくつかの最先端(SOTA)モデルに匹敵するパフォーマンスを実現し、2K解像度でのリアルタイム推論をサポートする。
- 参考スコア(独自算出の注目度): 29.199113565852645
- License:
- Abstract: With the rapid development of stereoscopic display technologies, especially glasses-free 3D screens, and virtual reality devices, stereoscopic conversion has become an important task to address the lack of high-quality stereoscopic image and video resources. Current stereoscopic conversion algorithms typically struggle to balance reconstruction performance and inference efficiency. This paper proposes a planar video real-time stereoscopic conversion network based on multi-plane images (MPI), which consists of a detail branch for generating MPI and a depth-semantic branch for perceiving depth information. Unlike models that depend on explicit depth map inputs, the proposed method employs a lightweight depth-semantic branch to extract depth-aware features implicitly. To optimize the lightweight branch, a heavy training but light inference strategy is adopted, which involves designing a coarse-to-fine auxiliary branch that is only used during the training stage. In addition, the proposed method simplifies the MPI rendering process for stereoscopic conversion scenarios to further accelerate the inference. Experimental results demonstrate that the proposed method can achieve comparable performance to some state-of-the-art (SOTA) models and support real-time inference at 2K resolution. Compared to the SOTA TMPI algorithm, the proposed method obtains similar subjective quality while achieving over $40\times$ inference acceleration.
- Abstract(参考訳): 立体表示技術,特にガラスフリーの3Dスクリーン,バーチャルリアリティ機器の急速な発展に伴い,高品質な立体映像・映像資源の欠如に対処する上で,立体変換は重要な課題となっている。
現在の立体変換アルゴリズムは、通常、再構成性能と推論効率のバランスをとるのに苦労する。
本稿では,MPIを生成するディテールブランチと深度情報を知覚するディープセマンティックブランチからなる多平面画像(MPI)に基づく平面ビデオリアルタイムステレオコンバージョンネットワークを提案する。
明示的な深度マップ入力に依存するモデルとは異なり、提案手法は暗黙的に深度マップの特徴を抽出するために軽量な深度セマンティック分岐を用いる。
軽量ブランチを最適化するためには、トレーニング段階でのみ使用される粗大な補助ブランチを設計する、重いトレーニングと軽量推論戦略が採用されている。
さらに,提案手法は立体変換シナリオのMPIレンダリングプロセスを単純化し,推論をさらに高速化する。
実験により,提案手法は,いくつかの最先端(SOTA)モデルに匹敵する性能を実現し,2K解像度でのリアルタイム推論をサポートできることが実証された。
提案手法は,SOTA TMPIアルゴリズムと比較して,40ドル以上の推定高速化を実現しつつ,類似した主観的品質が得られる。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Event-guided Multi-patch Network with Self-supervision for Non-uniform
Motion Deblurring [113.96237446327795]
本稿では,ぼやけた画像やビデオを扱うための,イベント誘導型深層階層型マルチパッチネットワークを提案する。
また、ビデオ内の複雑なぼやけに対処するために、動画に含まれる動きの手がかりを利用するイベント誘導アーキテクチャを提案する。
我々のMPNは、現在のマルチスケール手法に比べて40倍高速なランタイムでGoProとVideoDeblurringデータセットの最先端を達成しています。
論文 参考訳(メタデータ) (2023-02-14T15:58:00Z) - Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation [18.14237514372724]
RGBビデオから3次元のポーズとメッシュを生成する新しいフレームワークを提案する。
SMPLパラメータを予測するために,トランスフォーマーに基づく2ストリーム時間ネットワークを訓練する。
提案アルゴリズムは,Human3.6と3DPWのデータセットで広く評価されている。
論文 参考訳(メタデータ) (2021-10-22T10:01:13Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Real-time Dense Reconstruction of Tissue Surface from Stereo Optical
Video [10.181846237133167]
立体光学ビデオから組織表面の高密度3次元モデル(3次元)をリアルタイムに再構成する手法を提案する。
まずステレオマッチングを用いてビデオフレームから3D情報を抽出し,再構成した3Dモデルをモザイクする。
2mm未満の精度で高分解能テクスチャを有する復元3Dモデルについて, 生体内および生体内データによる実験結果を得た。
論文 参考訳(メタデータ) (2020-07-16T19:14:05Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。