論文の概要: MaskINT: Video Editing via Interpolative Non-autoregressive Masked
Transformers
- arxiv url: http://arxiv.org/abs/2312.12468v1
- Date: Tue, 19 Dec 2023 07:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:24:25.723443
- Title: MaskINT: Video Editing via Interpolative Non-autoregressive Masked
Transformers
- Title(参考訳): maskint: 非自己回帰マスクトランスフォーマーによるビデオ編集
- Authors: Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu,
Wenliang Zhao, Lior Shapira, Xiaohui Xie
- Abstract要約: 最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
本研究では、テキストベースのビデオ編集プロセスを2段階に分割することで、この問題に対処する。
最初の段階では、既存のテキストと画像の拡散モデルを利用して、追加の微調整をすることなく、いくつかの編集を同時に行う。
第2段階では、非自己回帰マスク生成変換器上に構築されたMaskINTと呼ばれる効率的なモデルを導入する。
- 参考スコア(独自算出の注目度): 32.25611468711403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative AI have significantly enhanced image and video
editing, particularly in the context of text prompt control. State-of-the-art
approaches predominantly rely on diffusion models to accomplish these tasks.
However, the computational demands of diffusion-based methods are substantial,
often necessitating large-scale paired datasets for training, and therefore
challenging the deployment in practical applications. This study addresses this
challenge by breaking down the text-based video editing process into two
separate stages. In the first stage, we leverage an existing text-to-image
diffusion model to simultaneously edit a few keyframes without additional
fine-tuning. In the second stage, we introduce an efficient model called
MaskINT, which is built on non-autoregressive masked generative transformers
and specializes in frame interpolation between the keyframes, benefiting from
structural guidance provided by intermediate frames. Our comprehensive set of
experiments illustrates the efficacy and efficiency of MaskINT when compared to
other diffusion-based methodologies. This research offers a practical solution
for text-based video editing and showcases the potential of non-autoregressive
masked generative transformers in this domain.
- Abstract(参考訳): 生成AIの最近の進歩は、特にテキストプロンプト制御の文脈において、画像とビデオの編集を大幅に強化している。
最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
しかし、拡散ベースの方法の計算の要求は相当であり、トレーニングのために大規模なペアデータセットを必要とすることが多い。
本研究では、テキストベースのビデオ編集プロセスを2段階に分割することで、この問題に対処する。
最初の段階では、既存のテキストと画像の拡散モデルを利用して、いくつかのキーフレームを微調整なしで同時に編集する。
第2段階では,非自己回帰型マスク生成トランスを基盤とし,キーフレーム間のフレーム補間を専門とする,中間フレームによる構造指導の恩恵を受ける, maskint と呼ばれる効率的なモデルを導入する。
本研究は,他の拡散型手法と比較してマスクの有効性と効率を示す。
本研究は,テキストベースの映像編集の実践的ソリューションを提供し,この領域における非自己回帰マスク生成トランスの可能性を示す。
関連論文リスト
- Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing [98.30393804479152]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Not Just Pretty Pictures: Toward Interventional Data Augmentation Using
Text-to-Image Generators [13.167173258708436]
我々は,テキスト・トゥ・イメージ(T2I)ジェネレータと関連する画像編集技術が,IDAの問題をいかに解決できるかを考察する。
我々は、T2I生成の重要な次元にまたがって、ドメインの一般化における様々なベンチマークの集合を実験する。
本稿では、画像編集と合成にT2Iを用いることの利点について論じるとともに、単純な検索ベースラインが驚くほど効果的な代替手段であることを示す。
論文 参考訳(メタデータ) (2022-12-21T18:07:39Z) - Masked Contrastive Pre-Training for Efficient Video-Text Retrieval [37.05164804180039]
我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
論文 参考訳(メタデータ) (2022-12-02T05:44:23Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval [40.646628490887075]
ビデオテキスト検索のためのHiT(Hierarchical Transformer)という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
MoCoにインスパイアされたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
論文 参考訳(メタデータ) (2021-03-28T04:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。