論文の概要: OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models
- arxiv url: http://arxiv.org/abs/2509.17627v1
- Date: Mon, 22 Sep 2025 11:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.346557
- Title: OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models
- Title(参考訳): OmniInsert: 拡散変圧器モデルによる任意の参照のマスクフリービデオ挿入
- Authors: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He,
- Abstract要約: 本研究では,マスクフリービデオ挿入の課題に焦点をあて,データ不足,主観的平衡,挿入調和という3つの課題を解決することを目的とする。
データ不足に対処するために、さまざまなクロスペアデータを自動的に構築する新しいデータパイプラインInsertPipeを提案する。
オムニインサート(OmniInsert)は、単体および複数被写体の両方からのマスフリービデオ挿入のための新しい統合フレームワークである。
- 参考スコア(独自算出の注目度): 27.792199133175718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video insertion based on diffusion models are impressive. However, existing methods rely on complex control signals but struggle with subject consistency, limiting their practical applicability. In this paper, we focus on the task of Mask-free Video Insertion and aim to resolve three key challenges: data scarcity, subject-scene equilibrium, and insertion harmonization. To address the data scarcity, we propose a new data pipeline InsertPipe, constructing diverse cross-pair data automatically. Building upon our data pipeline, we develop OmniInsert, a novel unified framework for mask-free video insertion from both single and multiple subject references. Specifically, to maintain subject-scene equilibrium, we introduce a simple yet effective Condition-Specific Feature Injection mechanism to distinctly inject multi-source conditions and propose a novel Progressive Training strategy that enables the model to balance feature injection from subjects and source video. Meanwhile, we design the Subject-Focused Loss to improve the detailed appearance of the subjects. To further enhance insertion harmonization, we propose an Insertive Preference Optimization methodology to optimize the model by simulating human preferences, and incorporate a Context-Aware Rephraser module during reference to seamlessly integrate the subject into the original scenes. To address the lack of a benchmark for the field, we introduce InsertBench, a comprehensive benchmark comprising diverse scenes with meticulously selected subjects. Evaluation on InsertBench indicates OmniInsert outperforms state-of-the-art closed-source commercial solutions. The code will be released.
- Abstract(参考訳): 拡散モデルに基づく映像挿入の最近の進歩は印象的である。
しかし、既存の手法は複雑な制御信号に依存しているが、対象の整合性に苦しむため、実用性は制限されている。
本稿では,マスクフリービデオ挿入の課題に焦点をあて,データ不足,主題・場面平衡,挿入調和という3つの課題を解決することを目的とする。
データ不足に対処するために、さまざまなクロスペアデータを自動的に構築する新しいデータパイプラインInsertPipeを提案する。
データパイプライン上に構築したOmniInsertは,シングルおよびマルチサブジェクト参照の両方からマスフリービデオ挿入を行う,新しい統合フレームワークである。
具体的には,マルチソース条件を明瞭に注入するための簡易かつ効果的な条件特化的特徴注入機構を導入し,被験者と映像からの特徴注入のバランスをとるための新しいプログレッシブトレーニング戦略を提案する。
一方,被験者の詳細な外観を改善するために,主観的損失を設計する。
挿入調和をさらに高めるため,人間の好みをシミュレートしてモデルを最適化するInsertive Preference Optimization法を提案し,参照中にContext-Aware Rephraserモジュールを組み込んで,対象を元のシーンにシームレスに統合する。
InsertBench(インサートベンチ)は、様々な場面に精巧に選択された被験者を対象とする総合的なベンチマークである。
InsertBenchの評価は、OmniInsertが最先端のクローズドソース商用ソリューションより優れていることを示している。
コードはリリースされます。
関連論文リスト
- Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。
各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文 参考訳(メタデータ) (2025-06-09T16:20:20Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。