論文の概要: ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning
- arxiv url: http://arxiv.org/abs/2410.00262v1
- Date: Mon, 30 Sep 2024 22:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:46:17.056955
- Title: ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning
- Title(参考訳): ImmersePro: ステレオビデオのエンドツーエンド合成
- Authors: Jian Shi, Zhenyu Li, Peter Wonka,
- Abstract要約: textitImmerseProは、シングルビュービデオをステレオビデオに変換するために特別に設計されたフレームワークである。
textitImmerseProは暗黙の相違ガイダンスを採用しており、明示的な相違マップを必要とせずにビデオシーケンスからステレオペアを生成することができる。
本実験は,高画質ステレオビデオ作成におけるtextitImmersePro の有効性を実証し,既存の手法よりも大幅に改善した。
- 参考スコア(独自算出の注目度): 43.105154507379076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textit{ImmersePro}, an innovative framework specifically designed to transform single-view videos into stereo videos. This framework utilizes a novel dual-branch architecture comprising a disparity branch and a context branch on video data by leveraging spatial-temporal attention mechanisms. \textit{ImmersePro} employs implicit disparity guidance, enabling the generation of stereo pairs from video sequences without the need for explicit disparity maps, thus reducing potential errors associated with disparity estimation models. In addition to the technical advancements, we introduce the YouTube-SBS dataset, a comprehensive collection of 423 stereo videos sourced from YouTube. This dataset is unprecedented in its scale, featuring over 7 million stereo pairs, and is designed to facilitate training and benchmarking of stereo video generation models. Our experiments demonstrate the effectiveness of \textit{ImmersePro} in producing high-quality stereo videos, offering significant improvements over existing methods. Compared to the best competitor stereo-from-mono we quantitatively improve the results by 11.76\% (L1), 6.39\% (SSIM), and 5.10\% (PSNR).
- Abstract(参考訳): シングルビュービデオをステレオビデオに変換するために特別に設計された革新的フレームワークである \textit{ImmersePro} を紹介する。
このフレームワークは、空間的時間的注意機構を活用することにより、ビデオデータ上の不均一分岐とコンテキスト分岐からなる新しいデュアルブランチアーキテクチャを利用する。
\textit{ImmersePro} は暗黙的な異方性誘導を採用しており、明示的な異方性マップを必要とせず、ビデオシーケンスからステレオペアを生成することができるため、異方性推定モデルに関連する潜在的なエラーを減らすことができる。
技術的進歩に加えて、YouTubeからソースされた423のステレオビデオの包括的なコレクションであるYouTube-SBSデータセットも紹介する。
このデータセットは、700万以上のステレオペアを備え、ステレオビデオ生成モデルのトレーニングとベンチマークを容易にするように設計されている。
実験では,高品質なステレオビデオの製作における‘textit{ImmersePro} の有効性を実証し,既存の手法よりも大幅に改善した。
ベストコンペティタであるステレオモノと比較して,11.76\%(L1),6.39\%(SSIM),5.10\%(PSNR)を定量的に改善した。
関連論文リスト
- Match Stereo Videos via Bidirectional Alignment [15.876953256378224]
最近の学習に基づく手法は、独立ステレオペアのパフォーマンスの最適化に重点を置いており、ビデオの時間的矛盾につながる。
本稿では,新しいビデオ処理フレームワークBiDAStereoとプラグイン安定化ネットワークBiDAStabilizerを紹介する。
本稿では,自然景観に着目したリアルな合成データセットとベンチマークと,様々な都市景観のステレオカメラが捉えた実世界のデータセットを定性評価として提示する。
論文 参考訳(メタデータ) (2024-09-30T13:37:29Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。
われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-11T17:52:07Z) - Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。
提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文 参考訳(メタデータ) (2024-07-10T08:40:39Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Saliency-aware Stereoscopic Video Retargeting [4.332879001008757]
本稿では,教師なし深層学習に基づくステレオビデオネットワークを提案する。
我々のモデルはまず、まず静かな物体を検出し、ステレオフレームの静かな部分の歪みを最小限に抑えるように、すべての物体をゆがめます。
ネットワークを訓練するために、注意機構を用いて左右のビューを融合し、再ターゲットされたフレームを再構成モジュールに供給し、再ターゲットされたフレームをパララックス入力フレームに反転させる。
論文 参考訳(メタデータ) (2023-04-18T09:38:33Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Support-Set Based Cross-Supervision for Video Grounding [98.29089558426399]
サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。