論文の概要: DreamStereo: Towards Real-Time Stereo Inpainting for HD Videos
- arxiv url: http://arxiv.org/abs/2604.12270v1
- Date: Tue, 14 Apr 2026 04:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.236295
- Title: DreamStereo: Towards Real-Time Stereo Inpainting for HD Videos
- Title(参考訳): DreamStereo:HDビデオのリアルタイムステレオ塗装を目指して
- Authors: Yuan Huang, Sijie Zhao, Jing Cheng, Hao Xu, Shaohui Jiao,
- Abstract要約: Stereo Video Inpaintingは、時間的一貫性を維持しながら視覚的に一貫性のあるコンテンツで歪んだビデオの領域を埋めることを目的としている。
既存のアプローチは、高品質なステレオ塗装データセットが不足しているため、そのようなタスクでは不十分である。
本稿では,重複トークンの70%以上を削減し,拡散推論における10.7倍の高速化を実現するSASIを提案する。
- 参考スコア(独自算出の注目度): 19.60238077099071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stereo video inpainting, which aims to fill the occluded regions of warped videos with visually coherent content while maintaining temporal consistency, remains a challenging open problem. The regions to be filled are scattered along object boundaries and occupy only a small fraction of each frame, leading to two key challenges. First, existing approaches perform poorly on such tasks due to the scarcity of high-quality stereo inpainting datasets, which limits their ability to learn effective inpainting priors. Second, these methods apply equal processing to all regions of the frame, even though most pixels require no modification, resulting in substantial redundant computation. To address these issues, we introduce three interconnected components. We first propose Gradient-Aware Parallax Warping (GAPW), which leverages backward warping and the gradient of the coordinate mapping function to obtain continuous edges and smooth occlusion regions. Then, a Parallax-Based Dual Projection (PBDP) strategy is introduced, which incorporates GAPW to produce geometrically consistent stereo inpainting pairs and accurate occlusion masks without requiring stereo videos. Finally, we present Sparsity-Aware Stereo Inpainting (SASI), which reduces over 70% of redundant tokens, achieving a 10.7x speedup during diffusion inference and delivering results comparable to its full-computation counterpart, enabling real-time processing of HD (768 x 1280) videos at 25 FPS on a single A100 GPU.
- Abstract(参考訳): 時間的一貫性を維持しつつ、視覚的に一貫性のあるコンテンツで歪んだビデオの領域を埋めることを目的としたステレオビデオのインペイントは、依然として難しい問題だ。
満たすべき領域は、オブジェクトの境界に沿って分散し、各フレームのごく一部しか占有しないため、2つの重要な課題が生じる。
第一に、既存のアプローチは、高品質なステレオ塗装データセットが不足しているため、そのようなタスクでは不十分である。
第二に、ほとんどのピクセルは修正を必要としないにもかかわらず、フレームのすべての領域に等しく処理を適用することで、かなりの冗長な計算をもたらす。
これらの問題に対処するため、3つの相互接続されたコンポーネントを導入する。
まず, 逆向きのワープと座標写像関数の勾配を利用して連続エッジと滑らかなオクルージョン領域を得るための勾配対応パララックスウォーピング(GAPW)を提案する。
次に、GAPWを組み込んだParallax-Based Dual Projection(PBDP)戦略を導入し、ステレオ映像を必要とせず、幾何学的に一貫したステレオインペイントペアと正確なオクルージョンマスクを生成する。
最後に、Sparsity-Aware Stereo Inpainting (SASI)を提案する。これは、冗長トークンの70%以上を削減し、拡散推論中に10.7倍のスピードアップを実現し、フル計算に匹敵する結果を提供し、単一のA100 GPU上で25 FPSでHD (768 x 1280)ビデオのリアルタイム処理を可能にする。
関連論文リスト
- GlobalPaint: Spatiotemporal Coherent Video Outpainting with Global Feature Guidance [65.1747900492124]
ビデオの露光はフレームごとの可視性だけでなく、長距離の時間的コヒーレンスも必要である。
本稿では,コヒーレントなビデオ・アウトペイントのためのコヒーレントなビデオ・アウトペイント・フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-10T03:20:26Z) - Unified Long Video Inpainting and Outpainting via Overlapping High-Order Co-Denoising [3.6045678816599387]
本稿では,テキストからビデオへの拡散モデルを拡張する長大な映像のインペイントとアウトペイントのための,新しい統一的アプローチを提案する。
本手法はLoRAを利用して,アリババのWan 2.1のような大規模なトレーニング済みビデオ拡散モデルをマスク付き領域ビデオ合成のために効率的に微調整する。
固定長クリップや縫製アーティファクトに苦労する以前の作業とは対照的に,本システムでは,目立った縫合やドリフトを伴わずにビデオ生成や編集を任意に行うことができる。
論文 参考訳(メタデータ) (2025-11-05T08:09:03Z) - VidSplice: Towards Coherent Video Inpainting via Explicit Spaced Frame Guidance [57.57195766748601]
VidSpliceは、テンポラリな手口でペンキを塗るプロセスをガイドする新しいフレームワークである。
VidSpliceは様々な映像のインパインティングシナリオで競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-10-24T13:44:09Z) - GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting [17.17292309504131]
GaussVideoDreamerは、画像、ビデオ、および3D生成のギャップを埋めることで、生成的マルチメディアアプローチを前進させる。
提案手法は,LLaVA-IQAスコアの32%,既存の手法に比べて少なくとも2倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-04-14T09:04:01Z) - T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z) - DVI: Depth Guided Video Inpainting for Autonomous Driving [35.94330601020169]
本稿では,ビデオからトラヒックエージェントを除去する自動インペイントアルゴリズムを提案する。
縫合された点雲から密集した3Dマップを構築することで、ビデオ内のフレームは幾何学的に相関する。
われわれは、ビデオのインペイントのために複数のビデオを融合した最初の人物だ。
論文 参考訳(メタデータ) (2020-07-17T09:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。