論文の概要: Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2605.17423v1
- Date: Sun, 17 May 2026 12:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.011189
- Title: Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration
- Title(参考訳): Soap2Soap:マルチエージェントコラボレーションによるロングシネマティックビデオのリメイク
- Authors: Yiren Song, Huilin Zhong, Kevin Qinghong Lin, Haofan Wang, Mike Zheng Shou,
- Abstract要約: Soap2SoapはDualBridgeメカニズムを通じて長期の視覚的一貫性を強制するマルチエージェントフレームワークである。
クローズドループ検証エージェントは、識別、安定性、アライメントを監査し、選択的再生を誘導する。
- 参考スコア(独自算出の注目度): 61.98029663481308
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study series-level cinematic remaking, a long-horizon video-to-video generation problem that localizes full episodes or films via stylization or actor replacement while strictly preserving narrative structure, motion choreography, and character identity across hundreds of shots. Existing video generation and editing pipelines often break down in this regime due to compounding identity drift, background mutation, and semantic erosion under large camera motions and viewpoint changes. We propose Soap2Soap, a multi-agent framework that enforces long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay serving as a persistent semantic backbone, and dynamically allocated visual reference anchors at both scene and shot levels. To suppress drift before video synthesis, we introduce batch keyframe consistency, jointly generating multiple keyframes in a shared latent context via a grid-based formulation. A closed-loop verification agent further audits identity, stability, and alignment to trigger selective regeneration. Experiments on SoapBench demonstrate strong improvements over commercial video generation APIs in long-term consistency and narrative fidelity.
- Abstract(参考訳): シリーズレベルの映画リメイキングは、物語構造、モーションコレオグラフィー、キャラクタアイデンティティを厳密に保存しつつ、スタイリゼーションやアクター置換を通じて全エピソードや映画をローカライズするロングホライズンビデオ生成問題である。
既存のビデオ生成と編集パイプラインは、大きなカメラの動きと視点の変化の下で、アイデンティティドリフト、バックグラウンド突然変異、セマンティックな侵食が混在しているため、この体制でしばしば崩壊する。
We propose Soap2Soap, a multi-agent framework, a long-term language-visual consistency through a Dual-Bridge Consistency mechanism: a scene-aware JSON screenplay as a persistent semantic backbone, and dynamic assignedd visual reference anchors at both scene and shot level。
ビデオ合成前のドリフトを抑制するため,複数のキーフレームを協調的に生成するバッチキーフレームの整合性を導入する。
クローズドループ検証エージェントは、さらにアイデンティティ、安定性、アライメントを監査し、選択的再生をトリガーする。
SoapBenchの実験では、長期の一貫性と物語の忠実さにおいて、商用ビデオ生成APIよりも強力な改善が示されている。
関連論文リスト
- VideoMemory: Toward Consistent Video Generation via Memory Integration [28.605816634949814]
VideoMemoryは、Dynamic Memory Bankを通じてナラティブプランニングとビジュアルジェネレーションを統合する。
ダイナミックメモリバンクは、文字、小道具、背景の明示的な視覚的および意味的な記述を格納する。
この検索更新機構は、遠距離ショット間のエンティティの一貫性のある表現を可能にし、コヒーレントなロングフォーム生成をサポートする。
論文 参考訳(メタデータ) (2026-01-07T07:10:32Z) - CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation [9.91271343855315]
CoAgentは、コヒーレントなビデオ生成のためのフレームワークで、プラン合成の検証パイプラインとしてプロセスを定式化している。
Storyboard Plannerは、入力を明示的な実体、空間的関係、時間的手がかりで構造化されたショットレベルのプランに分解する。
Global Context Managerは、エンティティレベルのメモリを維持して、ショット間の外観とアイデンティティの整合性を維持する。
ペーシング対応エディタは、所望の物語の流れに合わせて時間リズムと遷移を洗練する。
論文 参考訳(メタデータ) (2025-12-27T09:38:34Z) - FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion [46.67733869872552]
textbfFilmWeaverは任意の長さで一貫したマルチショットビデオを生成するように設計されたフレームワークである。
私たちの重要な洞察は、問題をショット間の一貫性とショット内のコヒーレンスに分離することです。
本手法は, 整合性と美的品質の両面において, 既存の手法を超越した手法である。
論文 参考訳(メタデータ) (2025-12-12T04:34:53Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。