論文の概要: CineMatte: Background Matting for Virtual Production and Beyond
- arxiv url: http://arxiv.org/abs/2605.18328v1
- Date: Mon, 18 May 2026 12:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.610473
- Title: CineMatte: Background Matting for Virtual Production and Beyond
- Title(参考訳): CineMatte: 仮想プロダクションとそれ以上の背景設定
- Authors: Yuanjian He, Chen Zhang, Fasheng Chen, Jiangbo Cao,
- Abstract要約: LED Virtual Production (VP)は、大きなLEDボリュームを使用して背景をリアルタイムでレンダリングする。
私たちは、VP以降の堅牢なバックグラウンドマッチングフレームワークであるCineMatteを使って、この問題に対処しています。
CineMatteはクロスアテンション設計を採用している。背景と入力を結合する代わりに、CineMatteはSiameseという冷凍のDINOv3 Vision Transformerを使って入力フレームとキャプチャされた背景を別々にエンコードする。
クロスアテンションモジュールは、2つのストリームを比較して前景を予測し、事前訓練されたセマンティクスを保存する。
- 参考スコア(独自算出の注目度): 5.200476666831395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LED Virtual Production (VP) uses large LED volumes to render backgrounds in real time, enabling in-camera visual effects but making post-shot changes labor-intensive. We address this with CineMatte, a robust background matting framework for VP and beyond. CineMatte employs a cross-attention-conditioned design. Instead of concatenating the background with the input, CineMatte employs a Siamese, frozen DINOv3 Vision Transformer with shared weights to encode the input frame and the captured background separately. A cross-attention module compares the two streams to predict the foreground, preserving pretrained semantics and improving robustness to background shifts. Previous ViT-based matting models use a parallel convolutional "detail branch" to recover fine details, which can cause boundary artifacts in real-world samples due to semantic misalignment with the backbone. We instead replace it with a pretrained, image-guided feature upsampler, which largely mitigates the problem. We also introduce CineMatte-4K, a 4K HDR image-video dataset captured on a professional LED VP stage. To the best of our knowledge, the image subset is the first dataset for VP matting and is non-synthetic, obtained via green-screen insertion; the video subset includes camera motion with tracked trajectories so that arbitrary backgrounds can be rendered later with correct parallax. Across CineMatte-4K and public benchmarks (VideoMatte240K, YouTubeMatte), CineMatte not only excels in VP but also generalizes robustly to real-world footage.
- Abstract(参考訳): LED Virtual Production (VP)は、大きなLEDボリュームを使用して背景をリアルタイムでレンダリングする。
私たちは、VP以降の堅牢なバックグラウンドマッチングフレームワークであるCineMatteを使って、この問題に対処しています。
CineMatteはクロスアテンション設計を採用している。
背景と入力を結合する代わりに、CineMatteはSiameseという冷凍のDINOv3 Vision Transformerを使って入力フレームとキャプチャされた背景を別々にエンコードする。
クロスアテンションモジュールは2つのストリームを比較して、前景を予測する。
以前のViTベースのマットモデルでは、並列畳み込みの"詳細ブランチ"を使用して詳細を復元し、バックボーンとのセマンティックなミスアライメントによる実世界のサンプルの境界アーティファクトを発生させる可能性がある。
代わりに、事前訓練された画像誘導機能アップサンプラーで置き換えます。
また,プロのLEDVPステージで撮影された4K HDR画像画像データセットであるCineMatte-4Kを紹介する。
我々の知る限り、画像サブセットはVPマッチングのための最初のデータセットであり、グリーンスクリーン挿入によって得られる合成ではない。
CineMatte-4Kと公開ベンチマーク(VideoMatte240K, YouTubeMatte)を通じて、CineMatteはVPを抜いているだけでなく、現実世界の映像にしっかりと一般化している。
関連論文リスト
- VideoMaMa: Mask-Guided Video Matting via Generative Prior [73.03369602195563]
ビデオマッチングモデルを実世界のビデオに一般化することは、ラベル付きデータの不足のため、依然として大きな課題である。
粗いセグメンテーションマスクを画素精度のアルファマットに変換するビデオマスク・トゥ・マテモデル(VideoMaMa)を提案する。
大規模ビデオマッティングのためのスケーラブルな擬似ラベルパイプラインを構築し、ビデオデータセットのMatting Anythingを構築する。
論文 参考訳(メタデータ) (2026-01-20T18:59:56Z) - Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation [16.61765374101053]
TransPhy3Dは、Blender/Cyclesで組み立てられた透明なシーンの合成ビデオコーパスである。
我々は,軽量なLoRAアダプタを用いて,深度(および正常値)の動画翻訳を学習する。
結果のモデルであるDKTは、透過性を含む実および合成ビデオベンチマーク上のゼロショットSOTAである。
論文 参考訳(メタデータ) (2025-12-29T18:59:24Z) - OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [77.04071342405055]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。
また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。
本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2025-06-29T18:43:00Z) - VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。
マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。
また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文 参考訳(メタデータ) (2025-03-07T17:59:46Z) - CoDeF: Content Deformation Fields for Temporally Consistent Video Processing [86.25225894085105]
CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。
実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
論文 参考訳(メタデータ) (2023-08-15T17:59:56Z) - Color-aware Deep Temporal Backdrop Duplex Matting System [26.114550071165628]
そこで本研究では,クロマキーとアルファマッティングの利点を組み合わせた時間多重背景生成システムを提案する。
提案するスタジオセットはアクターフレンドリーであり、高品質で時間的に一貫したアルファとカラー推定を生成する。
論文 参考訳(メタデータ) (2023-06-05T15:20:44Z) - Saliency detection with moving camera via background model completion [0.5076419064097734]
本稿では,SDBMC(Saliency Detection via background model completion)という新しいフレームワークを提案する。
バックグラウンドモデラーとディープラーニングバックグラウンド/地上セグメンテーションネットワークから構成される。
バックグラウンド/地上セグメンタを採用するが、特定のビデオデータセットで事前訓練されているため、見当たらないビデオの塩分濃度も検出できる。
論文 参考訳(メタデータ) (2021-10-30T11:17:58Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。