Fugu-MT 論文翻訳(概要): CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

論文の概要: CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

arxiv url: http://arxiv.org/abs/2403.12035v1
Date: Mon, 18 Mar 2024 17:59:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 18:51:33.938742
Title: CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility
Title（参考訳）: CoCoCo: 一貫性,可制御性,コンパチビリティ向上のためのテキストガイド型ビデオインペインティングの改善
Authors: Bojia Zi, Shihao Zhao, Xianbiao Qi, Jianan Wang, Yukai Shi, Qianyu Chen, Bin Liang, Kam-Fai Wong, Lei Zhang,
Abstract要約: 本稿では, 一貫性, 制御性, 互換性を向上する新しいテキスト誘導型映像インペインティングモデルを提案する。我々のモデルは、より優れた動きの整合性、テキスト制御可能性、モデルの互換性を示す。
参考スコア（独自算出の注目度）: 32.55229944782692
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in video generation have been remarkable, yet many existing methods struggle with issues of consistency and poor text-video alignment. Moreover, the field lacks effective techniques for text-guided video inpainting, a stark contrast to the well-explored domain of text-guided image inpainting. To this end, this paper proposes a novel text-guided video inpainting model that achieves better consistency, controllability and compatibility. Specifically, we introduce a simple but efficient motion capture module to preserve motion consistency, and design an instance-aware region selection instead of a random region selection to obtain better textual controllability, and utilize a novel strategy to inject some personalized models into our CoCoCo model and thus obtain better model compatibility. Extensive experiments show that our model can generate high-quality video clips. Meanwhile, our model shows better motion consistency, textual controllability and model compatibility. More details are shown in [cococozibojia.github.io](cococozibojia.github.io).
Abstract（参考訳）: 近年のビデオ生成の進歩は目覚ましいが、既存の多くの手法は一貫性とテキスト・ビデオの整合性に悩まされている。さらに、テキスト誘導画像の塗布において、よく探索された領域とは対照的な、テキスト誘導ビデオ塗布の効果的な技術が欠如している。そこで本稿では, 一貫性, 制御性, 互換性を向上する新しいテキスト誘導型映像インパインティングモデルを提案する。具体的には、動作の一貫性を維持するためのシンプルだが効率的なモーションキャプチャモジュールを導入し、ランダムな領域選択の代わりにインスタンス対応の領域選択を設計し、テキストによる制御性を向上し、新しい戦略を用いて、パーソナライズされたモデルをCoCoCoモデルに注入し、モデル互換性を向上させる。大規模な実験により,我々のモデルは高品質なビデオクリップを生成できることが判明した。一方,本モデルでは,動作の整合性,テキスト制御性,モデル互換性が向上している。詳細は[cococozibojia.github.io](cococozibojia.github.io]に示されている。

関連論文リスト

Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文参考訳（メタデータ） (2025-12-03T15:51:11Z)
Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction [36.82594554832902]
テキストビデオ予測(英: text-video prediction、TVP)は、後続のビデオフレームを生成するモデルを必要とする下流のビデオ生成タスクである。フレームワイドコンディショニング適応 (FCA) をラベル付けした適応型戦略を提案する。我々は、初期フレームを余剰条件として組み込んだT2Vモデルを微調整するためにFCAを使用する。
論文参考訳（メタデータ） (2025-03-17T09:06:21Z)
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。軽量のスパース制御エンコーダのみを使用して編集信号を注入する。従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文参考訳（メタデータ） (2025-01-14T16:09:16Z)
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文参考訳（メタデータ） (2024-05-02T16:25:16Z)
TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文参考訳（メタデータ） (2024-03-27T19:52:55Z)
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。 ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文参考訳（メタデータ） (2023-10-11T17:46:28Z)
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文参考訳（メタデータ） (2023-09-16T08:48:21Z)
TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文参考訳（メタデータ） (2023-07-19T18:00:03Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文参考訳（メタデータ） (2023-05-18T09:06:01Z)
Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文参考訳（メタデータ） (2023-04-12T02:08:34Z)
Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。 Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文参考訳（メタデータ） (2023-03-08T17:53:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。