Fugu-MT 論文翻訳(概要): Zero-to-Hero: Zero-Shot Initialization Empowering Reference-Based Video Appearance Editing

論文の概要: Zero-to-Hero: Zero-Shot Initialization Empowering Reference-Based Video Appearance Editing

arxiv url: http://arxiv.org/abs/2505.23134v1
Date: Thu, 29 May 2025 06:10:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.709022
Title: Zero-to-Hero: Zero-Shot Initialization Empowering Reference-Based Video Appearance Editing
Title（参考訳）: Zero-to-Hero: 参照型ビデオ出現編集を利用したゼロショット初期化
Authors: Tongtong Su, Chengyu Wang, Jun Huang, Dongming Lu,
Abstract要約: 本稿では,参照型ビデオ編集に焦点を当てたZero-to-Heroという新しい手法を提案する。これにより、まずアンカーフレームを編集し、ユーザーの要求を基準画像として満たし、その外観を他のフレーム間で一貫して伝播させることで実現される。我々は,従来提案されていた光フローや時間モジュールよりも頑健なアテンション機構を誘導するために,元のフレーム内での対応を活用している。
参考スコア（独自算出の注目度）: 14.068418640316672
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Appearance editing according to user needs is a pivotal task in video editing. Existing text-guided methods often lead to ambiguities regarding user intentions and restrict fine-grained control over editing specific aspects of objects. To overcome these limitations, this paper introduces a novel approach named {Zero-to-Hero}, which focuses on reference-based video editing that disentangles the editing process into two distinct problems. It achieves this by first editing an anchor frame to satisfy user requirements as a reference image and then consistently propagating its appearance across other frames. We leverage correspondence within the original frames to guide the attention mechanism, which is more robust than previously proposed optical flow or temporal modules in memory-friendly video generative models, especially when dealing with objects exhibiting large motions. It offers a solid ZERO-shot initialization that ensures both accuracy and temporal consistency. However, intervention in the attention mechanism results in compounded imaging degradation with over-saturated colors and unknown blurring issues. Starting from Zero-Stage, our Hero-Stage Holistically learns a conditional generative model for vidEo RestOration. To accurately evaluate the consistency of the appearance, we construct a set of videos with multiple appearances using Blender, enabling a fine-grained and deterministic evaluation. Our method outperforms the best-performing baseline with a PSNR improvement of 2.6 dB. The project page is at https://github.com/Tonniia/Zero2Hero.
Abstract（参考訳）: ユーザのニーズに応じた外観編集は、ビデオ編集において重要な課題である。既存のテキスト誘導方式は、しばしばユーザの意図に関する曖昧さを招き、オブジェクトの特定の側面を編集する細かい制御を制限する。このような制約を克服するため,本稿では,参照ベースのビデオ編集に焦点をあてた新たなアプローチであるZero-to-Heroを紹介した。これにより、まずアンカーフレームを編集し、ユーザーの要求を基準画像として満たし、その外観を他のフレーム間で一貫して伝播させることで実現される。我々は、特に大きな動きを示す物体を扱う場合、特に、メモリフレンドリーなビデオ生成モデルにおいて、従来提案されていた光フローや時間モジュールよりも頑健なアテンションメカニズムを誘導するために、元のフレーム内の対応を活用している。ソリッドなZEROショットの初期化を提供し、正確性と時間的整合性の両方を保証する。しかし、注意機構の介入は、過飽和色と未知のぼかし問題による複合画像劣化をもたらす。 Zero-Stageから始めると、Hero-StageはvidEo RestOrationの条件付き生成モデルを学ぶ。外観の整合性を正確に評価するために,Blender を用いて複数の外観を持つビデオの集合を構築し,きめ細かな決定論的評価を可能にする。提案手法はPSNRを2.6dBで改善し, 最高性能のベースラインを上回った。プロジェクトページはhttps://github.com/Tonniia/Zero2Heroにある。

関連論文リスト

FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。軽量のスパース制御エンコーダのみを使用して編集信号を注入する。従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文参考訳（メタデータ） (2025-01-14T16:09:16Z)
Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文参考訳（メタデータ） (2024-09-20T15:45:13Z)
InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models [46.587906540660455]
InViは、ビデオ内のオブジェクトを挿入または置換するためのアプローチで、オフザシェルフ、テキスト・ツー・イメージの潜伏拡散モデルを用いて導入する。 InViは、フレーム間の一貫したブレンディングとコヒーレンスで現実的なオブジェクト挿入を実現し、既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-07-15T17:55:09Z)
HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文参考訳（メタデータ） (2024-06-11T22:31:29Z)
RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video Editing [9.215070588761282]
本研究では,ゼロショット映像編集のためのアテンション制御方式であるRealCraftを提案する。新たな特徴注入にクロスアテンションを切り替え、編集対象の空間的注意を緩和することにより、局所的な形状の編集を実現する。提案するゼロショットアテンション制御方式を,様々なビデオで紹介し,形状,時間一貫性,パラメータフリーな編集方法を示した。
論文参考訳（メタデータ） (2023-12-19T22:33:42Z)
RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文参考訳（メタデータ） (2023-08-11T12:17:24Z)
InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文参考訳（メタデータ） (2023-07-22T17:05:47Z)
Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文参考訳（メタデータ） (2023-03-30T17:59:25Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)
Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-03-14T14:35:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。