論文の概要: Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis
- arxiv url: http://arxiv.org/abs/2505.00135v1
- Date: Wed, 30 Apr 2025 19:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.159268
- Title: Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis
- Title(参考訳): Eye2Eye:モノクロ-ステレオビデオ合成のための簡単なアプローチ
- Authors: Michal Geyer, Omer Tov, Linyi Jin, Richard Tucker, Inbar Mosseri, Tali Dekel, Noah Snavely,
- Abstract要約: ビデオ合成の進歩にもかかわらず、3Dビデオデータが比較的少ないため、3Dビデオを作成することは難しい。
本稿では,テキスト・ビデオ・ジェネレータをビデオ・ビデオ・ステレオ・ジェネレータに変換するための簡単な手法を提案する。
われわれのフレームワークは、動画フレームをシフトした視点から自動生成し、説得力のある3D効果を実現する。
- 参考スコア(独自算出の注目度): 45.64047250474718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rising popularity of immersive visual experiences has increased interest in stereoscopic 3D video generation. Despite significant advances in video synthesis, creating 3D videos remains challenging due to the relative scarcity of 3D video data. We propose a simple approach for transforming a text-to-video generator into a video-to-stereo generator. Given an input video, our framework automatically produces the video frames from a shifted viewpoint, enabling a compelling 3D effect. Prior and concurrent approaches for this task typically operate in multiple phases, first estimating video disparity or depth, then warping the video accordingly to produce a second view, and finally inpainting the disoccluded regions. This approach inherently fails when the scene involves specular surfaces or transparent objects. In such cases, single-layer disparity estimation is insufficient, resulting in artifacts and incorrect pixel shifts during warping. Our work bypasses these restrictions by directly synthesizing the new viewpoint, avoiding any intermediate steps. This is achieved by leveraging a pre-trained video model's priors on geometry, object materials, optics, and semantics, without relying on external geometry models or manually disentangling geometry from the synthesis process. We demonstrate the advantages of our approach in complex, real-world scenarios featuring diverse object materials and compositions. See videos on https://video-eye2eye.github.io
- Abstract(参考訳): 没入型視覚体験の人気が高まり、立体映像生成への関心が高まっている。
ビデオ合成の大幅な進歩にもかかわらず、3Dビデオデータが比較的少ないため、3Dビデオの作成は依然として困難である。
本稿では,テキスト・ビデオ・ジェネレータをビデオ・ビデオ・ステレオ・ジェネレータに変換するための簡単な手法を提案する。
入力ビデオが与えられた場合、このフレームワークはシフトした視点からビデオフレームを自動的に生成し、説得力のある3D効果を実現する。
このタスクの先行的および同時的アプローチは、通常、複数のフェーズで動作し、まずビデオの相違や深さを推定し、次に第2のビューを生成するために映像をワープし、最後に排除された領域に塗装する。
このアプローチは本質的には、シーンが特異な表面や透明なオブジェクトを含む場合に失敗する。
このような場合、単層差分推定は不十分であり、結果としてアーティファクトや不正な画素シフトが発生する。
我々の研究は、これらの制約を回避し、新しい視点を直接合成し、中間的なステップを避けます。
これは、外部幾何学モデルに依存したり、合成プロセスから手動で幾何学を取り除いたりすることなく、事前に訓練されたビデオモデルの幾何学、物体の材料、光学、意味論の先例を活用することで達成される。
我々は,多種多様な材料や構成を特徴とする複雑で現実的なシナリオにおいて,我々のアプローチの利点を実証する。
https://video-eye2eye.github.io
関連論文リスト
- VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step [13.168559963356952]
VideoSceneは、ビデオ拡散モデルを蒸留して、ワンステップで3Dシーンを生成する。
VideoSceneは従来のビデオ拡散モデルよりも高速で優れた3Dシーン生成結果が得られる。
論文 参考訳(メタデータ) (2025-04-02T17:59:21Z) - LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis [80.2461057573121]
本研究では,新しい次元,すなわち深度次元との相互作用を増大させ,ユーザが軌道上の各点に対して相対的な深度を割り当てることを許す。
本稿では,オブジェクトマスクを数個のクラスタポイントに抽象化することで,画像から映像への3次元トラジェクトリ制御の先駆的手法を提案する。
静的画像から実写映像を生成する際の物体の動きを正確に操作する手法であるLeviTorの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-12-19T18:59:56Z) - OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。
本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T05:03:46Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - Lester: rotoscope animation through video object segmentation and
tracking [0.0]
レスターはビデオからレトロスタイルの2Dアニメーションを自動的に合成する新しい方法である。
ビデオフレームはSAM(Segment Anything Model)で処理され、結果のマスクは後のフレームを通してDeAOTで追跡される。
その結果,提案手法は時間的整合性に優れており,ポーズや外観の異なる映像を正しく処理できることがわかった。
論文 参考訳(メタデータ) (2024-02-15T11:15:54Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。