論文の概要: M2SVid: End-to-End Inpainting and Refinement for Monocular-to-Stereo Video Conversion
- arxiv url: http://arxiv.org/abs/2505.16565v1
- Date: Thu, 22 May 2025 11:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.264755
- Title: M2SVid: End-to-End Inpainting and Refinement for Monocular-to-Stereo Video Conversion
- Title(参考訳): M2SVid:モノクロ-ステレオビデオ変換のためのエンド・ツー・エンド塗装と微細化
- Authors: Nina Shvetsova, Goutam Bhat, Prune Truong, Hilde Kuehne, Federico Tombari,
- Abstract要約: 入力左図の奥行きに基づく再投影により得られた歪んだ右図の描画と洗練のための新しいアーキテクチャを提案する。
提案手法は従来の最先端手法よりも優れており,ユーザスタディでは4つの比較手法の中で平均1.43のランクが得られた。
- 参考スコア(独自算出の注目度): 60.728003408015844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of monocular-to-stereo video conversion and propose a novel architecture for inpainting and refinement of the warped right view obtained by depth-based reprojection of the input left view. We extend the Stable Video Diffusion (SVD) model to utilize the input left video, the warped right video, and the disocclusion masks as conditioning input to generate a high-quality right camera view. In order to effectively exploit information from neighboring frames for inpainting, we modify the attention layers in SVD to compute full attention for discoccluded pixels. Our model is trained to generate the right view video in an end-to-end manner by minimizing image space losses to ensure high-quality generation. Our approach outperforms previous state-of-the-art methods, obtaining an average rank of 1.43 among the 4 compared methods in a user study, while being 6x faster than the second placed method.
- Abstract(参考訳): 本稿では,モノクロからステレオへの映像変換の問題に取り組み,入力左図の奥行きに基づく再投影により得られた歪んだ右図の表現と洗練のための新しいアーキテクチャを提案する。
我々は、入力された左ビデオ、歪んだ右ビデオ、および非閉塞マスクを条件入力として使用するために、安定ビデオ拡散(SVD)モデルを拡張し、高品質な右カメラビューを生成する。
隣接フレームからの情報を効果的に活用するために,SVDの注目層を修正し,不特定画素に対する注意度を算出する。
画像空間の損失を最小限に抑え,高品質な映像生成を実現することによって,エンド・ツー・エンドで適切なビュー映像を生成する訓練を行った。
提案手法は従来の最先端手法よりも優れており,ユーザスタディで比較した4つの手法の中で平均1.43のランクが得られたが,第2の手法よりも6倍高速であった。
関連論文リスト
- TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models [33.219657261649324]
TrajectoryCrafterは、モノクロビデオのためのカメラトラジェクトリをリダイレクトする新しいアプローチである。
コンテンツ生成から決定論的視点変換を遠ざけることで,ユーザの特定したカメラトラジェクトリの正確な制御を実現する。
論文 参考訳(メタデータ) (2025-03-07T17:57:53Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。