論文の概要: PISCO: Precise Video Instance Insertion with Sparse Control
- arxiv url: http://arxiv.org/abs/2602.08277v1
- Date: Mon, 09 Feb 2026 05:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.074449
- Title: PISCO: Precise Video Instance Insertion with Sparse Control
- Title(参考訳): PISCO:スパース制御による精密ビデオインスタンス挿入
- Authors: Xiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu,
- Abstract要約: プロのAI支援映画製作では、精密で標的とした修正を行うことが不可欠である。
この移行の要点は、既存のビデオに特定のインスタンスを挿入する必要があるビデオインスタンス挿入である。
本稿では,任意のスパース制御が可能なビデオ挿入インスタンスのPISCOを提案する。
- 参考スコア(独自算出の注目度): 20.322731348056543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering and "cherry-picking" - towards fine-grained, controllable generation and high-fidelity post-processing. In professional AI-assisted filmmaking, it is crucial to perform precise, targeted modifications. A cornerstone of this transition is video instance insertion, which requires inserting a specific instance into existing footage while maintaining scene integrity. Unlike traditional video editing, this task demands several requirements: precise spatial-temporal placement, physically consistent scene interaction, and the faithful preservation of original dynamics - all achieved under minimal user effort. In this paper, we propose PISCO, a video diffusion model for precise video instance insertion with arbitrary sparse keyframe control. PISCO allows users to specify a single keyframe, start-and-end keyframes, or sparse keyframes at arbitrary timestamps, and automatically propagates object appearance, motion, and interaction. To address the severe distribution shift induced by sparse conditioning in pretrained video diffusion models, we introduce Variable-Information Guidance for robust conditioning and Distribution-Preserving Temporal Masking to stabilize temporal generation, together with geometry-aware conditioning for realistic scene adaptation. We further construct PISCO-Bench, a benchmark with verified instance annotations and paired clean background videos, and evaluate performance using both reference-based and reference-free perceptual metrics. Experiments demonstrate that PISCO consistently outperforms strong inpainting and video editing baselines under sparse control, and exhibits clear, monotonic performance improvements as additional control signals are provided. Project page: xiangbogaobarry.github.io/PISCO.
- Abstract(参考訳): AIビデオ生成のランドスケープは、全体的なプロンプトエンジニアリングと“チェリーピッキング”に依存しているジェネラルジェネレーションを超えて、きめ細かい、制御可能なジェネレーションと高忠実なポストプロセッシングへと、重要なシフトを遂げている。
プロのAI支援映画製作では、精密で標的とした修正を行うことが不可欠である。
この移行の要点はビデオインスタンス挿入であり、シーンの完全性を維持しながら、既存の映像に特定のインスタンスを挿入する必要がある。
従来のビデオ編集とは異なり、このタスクには、正確な時空間配置、物理的に一貫したシーンインタラクション、オリジナルダイナミクスの忠実な保存など、いくつかの要件が要求される。
本稿では,任意のキーフレーム制御を施したビデオインスタンス挿入のためのビデオ拡散モデルPISCOを提案する。
PISCOを使うと、ユーザーは任意のタイムスタンプで単一のキーフレーム、始末キーフレーム、スパースキーフレームを指定でき、オブジェクトの外観、動き、インタラクションを自動的に伝達できる。
事前学習した映像拡散モデルにおけるスパース条件付けによって引き起こされる過度な分布変化に対処するために,ロバストな条件付けのための可変情報誘導と,時間的生成を安定させるために分布保存時マスキングと,現実的なシーン適応のための幾何学的条件付けを導入する。
さらに、検証済みのインスタンスアノテーションとペアのクリーンバックグラウンドビデオを用いたベンチマークであるPISCO-Benchを構築し、参照ベースと参照フリーの両方の知覚メトリクスを用いてパフォーマンスを評価する。
実験により、PISCOはスパース制御下で、強い塗装や映像編集のベースラインを一貫して上回り、追加の制御信号が提供されるにつれて、明確な単調な性能向上を示すことが示された。
プロジェクトページ:xiangbogaobarry.github.io/PISCO。
関連論文リスト
- StableDPT: Temporal Stable Monocular Video Depth Estimation [14.453483279783908]
本稿では,最新の画像ベース(深度)推定モデルをビデオ処理に適用する手法を提案する。
我々のアーキテクチャは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) ヘッドが強化されている。
複数のベンチマークデータセットに対する評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および上位2倍高速な処理が示されている。
論文 参考訳(メタデータ) (2026-01-06T08:02:14Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding [45.593989778240655]
提案した表現はより少ないパラメータで高い映像再構成精度を実現する。
複雑なビデオ処理タスクをサポートし、ビデオのインペイントや時間的に一貫したビデオ編集を行う。
論文 参考訳(メタデータ) (2025-10-14T08:05:30Z) - MomentSeg: Moment-Centric Sampling for Enhanced Video Pixel Understanding [40.37010049965347]
Referring Video Object (RefVOS)は、自然言語記述でガイドされたビデオにターゲットオブジェクトをセグメント化しようとする。
本稿では,時空間接地(TSG)とRefVOSを協調的に最適化し,キーモーメント接地機能を自然に組み込んだ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T11:18:21Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。