論文の概要: ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning
- arxiv url: http://arxiv.org/abs/2410.00262v1
- Date: Mon, 30 Sep 2024 22:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:46:17.056955
- Title: ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning
- Title(参考訳): ImmersePro: ステレオビデオのエンドツーエンド合成
- Authors: Jian Shi, Zhenyu Li, Peter Wonka,
- Abstract要約: textitImmerseProは、シングルビュービデオをステレオビデオに変換するために特別に設計されたフレームワークである。
textitImmerseProは暗黙の相違ガイダンスを採用しており、明示的な相違マップを必要とせずにビデオシーケンスからステレオペアを生成することができる。
本実験は,高画質ステレオビデオ作成におけるtextitImmersePro の有効性を実証し,既存の手法よりも大幅に改善した。
- 参考スコア(独自算出の注目度): 43.105154507379076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textit{ImmersePro}, an innovative framework specifically designed to transform single-view videos into stereo videos. This framework utilizes a novel dual-branch architecture comprising a disparity branch and a context branch on video data by leveraging spatial-temporal attention mechanisms. \textit{ImmersePro} employs implicit disparity guidance, enabling the generation of stereo pairs from video sequences without the need for explicit disparity maps, thus reducing potential errors associated with disparity estimation models. In addition to the technical advancements, we introduce the YouTube-SBS dataset, a comprehensive collection of 423 stereo videos sourced from YouTube. This dataset is unprecedented in its scale, featuring over 7 million stereo pairs, and is designed to facilitate training and benchmarking of stereo video generation models. Our experiments demonstrate the effectiveness of \textit{ImmersePro} in producing high-quality stereo videos, offering significant improvements over existing methods. Compared to the best competitor stereo-from-mono we quantitatively improve the results by 11.76\% (L1), 6.39\% (SSIM), and 5.10\% (PSNR).
- Abstract(参考訳): シングルビュービデオをステレオビデオに変換するために特別に設計された革新的フレームワークである \textit{ImmersePro} を紹介する。
このフレームワークは、空間的時間的注意機構を活用することにより、ビデオデータ上の不均一分岐とコンテキスト分岐からなる新しいデュアルブランチアーキテクチャを利用する。
\textit{ImmersePro} は暗黙的な異方性誘導を採用しており、明示的な異方性マップを必要とせず、ビデオシーケンスからステレオペアを生成することができるため、異方性推定モデルに関連する潜在的なエラーを減らすことができる。
技術的進歩に加えて、YouTubeからソースされた423のステレオビデオの包括的なコレクションであるYouTube-SBSデータセットも紹介する。
このデータセットは、700万以上のステレオペアを備え、ステレオビデオ生成モデルのトレーニングとベンチマークを容易にするように設計されている。
実験では,高品質なステレオビデオの製作における‘textit{ImmersePro} の有効性を実証し,既存の手法よりも大幅に改善した。
ベストコンペティタであるステレオモノと比較して,11.76\%(L1),6.39\%(SSIM),5.10\%(PSNR)を定量的に改善した。
関連論文リスト
- StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart [45.27524689977587]
ゼロショットステレオビデオ生成のための新しいフレームワークである textitStereoCrafter-Zero を紹介する。
主なイノベーションは、ステレオ認識の潜伏剤を初期化するためのノイズの多い再起動戦略と反復的な精錬プロセスである。
我々のフレームワークは様々な拡散モデルに対して堅牢で適応可能であり、ゼロショットステレオビデオ生成のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-11-21T16:41:55Z) - Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data [26.029499450825092]
我々は、ロバストなステレオマッチングのためのソリューションであるStereoAnythingを紹介する。
ラベル付きステレオ画像を収集し,ラベル付きモノクロ画像から合成ステレオペアを生成することにより,データセットをスケールアップする。
5つの公開データセット上で,モデルのゼロショット能力を広範囲に評価した。
論文 参考訳(メタデータ) (2024-11-21T11:59:04Z) - SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。
ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。
また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T15:12:59Z) - Match Stereo Videos via Bidirectional Alignment [15.876953256378224]
最近の学習に基づく手法は、独立ステレオペアのパフォーマンスの最適化に重点を置いており、ビデオの時間的矛盾につながる。
本稿では,新しいビデオ処理フレームワークBiDAStereoとプラグイン安定化ネットワークBiDAStabilizerを紹介する。
本稿では,自然景観に着目したリアルな合成データセットとベンチマークと,様々な都市景観のステレオカメラが捉えた実世界のデータセットを定性評価として提示する。
論文 参考訳(メタデータ) (2024-09-30T13:37:29Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Support-Set Based Cross-Supervision for Video Grounding [98.29089558426399]
サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。