論文の概要: GlobalPaint: Spatiotemporal Coherent Video Outpainting with Global Feature Guidance
- arxiv url: http://arxiv.org/abs/2601.06413v1
- Date: Sat, 10 Jan 2026 03:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.801643
- Title: GlobalPaint: Spatiotemporal Coherent Video Outpainting with Global Feature Guidance
- Title(参考訳): GlobalPaint: 時空間コヒーレントなビデオがグローバルな特徴ガイダンスで露呈
- Authors: Yueming Pan, Ruoyu Feng, Jianmin Bao, Chong Luo, Nanning Zheng,
- Abstract要約: ビデオの露光はフレームごとの可視性だけでなく、長距離の時間的コヒーレンスも必要である。
本稿では,コヒーレントなビデオ・アウトペイントのためのコヒーレントなビデオ・アウトペイント・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 65.1747900492124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video outpainting extends a video beyond its original boundaries by synthesizing missing border content. Compared with image outpainting, it requires not only per-frame spatial plausibility but also long-range temporal coherence, especially when outpainted content becomes visible across time under camera or object motion. We propose GlobalPaint, a diffusion-based framework for spatiotemporal coherent video outpainting. Our approach adopts a hierarchical pipeline that first outpaints key frames and then completes intermediate frames via an interpolation model conditioned on the completed boundaries, reducing error accumulation in sequential processing. At the model level, we augment a pretrained image inpainting backbone with (i) an Enhanced Spatial-Temporal module featuring 3D windowed attention for stronger spatiotemporal interaction, and (ii) global feature guidance that distills OpenCLIP features from observed regions across all frames into compact global tokens using a dedicated extractor. Comprehensive evaluations on benchmark datasets demonstrate improved reconstruction quality and more natural motion compared to prior methods. Our demo page is https://yuemingpan.github.io/GlobalPaint/
- Abstract(参考訳): ビデオのアウトパインティングは、失われた境界コンテンツを合成することによって、元の境界を越えてビデオを拡大する。
画像の露光と比較して、フレームごとの空間的可視性だけでなく、特に露光されたコンテンツがカメラや物体の動きの下で時間をかけて見えるようになると、長時間の時間的コヒーレンスも必要となる。
時空間的コヒーレントなビデオ出力のための拡散に基づくフレームワークであるGlobalPaintを提案する。
提案手法では,まず鍵フレームよりも優れた階層的パイプラインを採用し,その中間フレームを補間モデルを用いて補間し,逐次処理における誤りの蓄積を低減する。
モデルレベルでは、トレーニング済みのバックボーンを拡大する。
(i)時空間相互作用を強くするための3次元窓付き注意を特徴とする拡張時空間モジュール、及び
(II)全フレームにわたる観測領域からOpenCLIP特徴を蒸留するグローバルな特徴ガイダンスを,専用抽出器を用いてコンパクトなグローバルトークンに変換する。
ベンチマークデータセットの総合評価では、従来の手法に比べて再現性の向上と自然な動きが示されている。
私たちのデモページはhttps://yuemingpan.github.io/GlobalPaint/です。
関連論文リスト
- VidSplice: Towards Coherent Video Inpainting via Explicit Spaced Frame Guidance [57.57195766748601]
VidSpliceは、テンポラリな手口でペンキを塗るプロセスをガイドする新しいフレームワークである。
VidSpliceは様々な映像のインパインティングシナリオで競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-10-24T13:44:09Z) - VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning [38.89828994130979]
任意の場所に配置された任意のユーザ指定のパッチからビデオが生成され、ビデオキャンバスに描画されるような、任意の時間的ビデオ補完のタスクを紹介する。
この柔軟性は、単一のパラダイムの下で、ファーストフレームのイメージ・トゥ・ビデオ、塗り絵、拡張、結束など、既存のコントロール可能なビデオ生成タスクを統一する。
In-Context Conditioning(ICC)パラダイムを、新しいパラメータをゼロとしたこのきめ細かい制御タスクに適応する、新しいフレームワークであるVideoCanvasを開発した。
論文 参考訳(メタデータ) (2025-10-09T17:58:59Z) - Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Short-Term and Long-Term Context Aggregation Network for Video
Inpainting [126.06302824297948]
Video Inpaintingは、ビデオの欠落した領域を復元することを目的としており、ビデオ編集やオブジェクト削除など多くのアプリケーションがある。
本稿では,映像インパインティングにおいて,短期・長期のフレーム情報を効果的に活用する新しいコンテキスト集約ネットワークを提案する。
実験により,最先端の手法よりも優れた塗布結果と高速塗布速度が得られた。
論文 参考訳(メタデータ) (2020-09-12T03:50:56Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。