論文の概要: VideoAssembler: Identity-Consistent Video Generation with Reference
Entities using Diffusion Model
- arxiv url: http://arxiv.org/abs/2311.17338v2
- Date: Fri, 1 Dec 2023 03:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 11:42:58.831762
- Title: VideoAssembler: Identity-Consistent Video Generation with Reference
Entities using Diffusion Model
- Title(参考訳): VideoAssembler:拡散モデルを用いた参照エンティティを持つアイデンティティ一貫性ビデオ生成
- Authors: Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Zuxuan Wu, Hang Xu,
Yu-Gang Jiang
- Abstract要約: VideoAssemblerは、アイデンティティ一貫性のあるビデオ生成のためのエンドツーエンドフレームワークである。
VideoAssemblerは、入力参照エンティティに対してフレキシブルなビデオを作成することに長けている。
- 参考スコア(独自算出の注目度): 97.99027412399198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identity-consistent video generation seeks to synthesize videos that are
guided by both textual prompts and reference images of entities. Current
approaches typically utilize cross-attention layers to integrate the appearance
of the entity, which predominantly captures semantic attributes, resulting in
compromised fidelity of entities. Moreover, these methods necessitate iterative
fine-tuning for each new entity encountered, thereby limiting their
applicability. To address these challenges, we introduce VideoAssembler, a
novel end-to-end framework for identity-consistent video generation that can
conduct inference directly when encountering new entities. VideoAssembler is
adept at producing videos that are not only flexible with respect to the input
reference entities but also responsive to textual conditions. Additionally, by
modulating the quantity of input images for the entity, VideoAssembler enables
the execution of tasks ranging from image-to-video generation to sophisticated
video editing. VideoAssembler comprises two principal components: the Reference
Entity Pyramid (REP) encoder and the Entity-Prompt Attention Fusion (EPAF)
module. The REP encoder is designed to infuse comprehensive appearance details
into the denoising stages of the stable diffusion model. Concurrently, the EPAF
module is utilized to integrate text-aligned features effectively. Furthermore,
to mitigate the challenge of scarce data, we present a methodology for the
preprocessing of training data. Our evaluation of the VideoAssembler framework
on the UCF-101, MSR-VTT, and DAVIS datasets indicates that it achieves good
performances in both quantitative and qualitative analyses (346.84 in FVD and
48.01 in IS on UCF-101). Our project page is at
https://gulucaptain.github.io/videoassembler/.
- Abstract(参考訳): アイデンティティ一貫性のあるビデオ生成は、テキストプロンプトとエンティティの参照イメージの両方によってガイドされるビデオの合成を目指している。
現在のアプローチでは一般的に、エンティティの外観を統合するために、クロスアテンション・レイヤを使用し、主にセマンティックな属性をキャプチャし、エンティティの忠実度を損なう。
さらに、これらの手法は遭遇する新しいエンティティごとに反復的な微調整を必要とするため、適用性が制限される。
これらの課題に対処するために,我々は,アイデンティティ一貫性のあるビデオ生成のための新しいエンドツーエンドフレームワークであるvideoassemblerを紹介する。
VideoAssemblerは、入力参照エンティティに関してだけでなく、テキスト条件にも反応するフレキシブルなビデオを作成することに長けている。
さらに、エンティティの入力画像量を調整することで、VideoAssemblerは、画像生成から高度なビデオ編集まで、タスクの実行を可能にする。
VideoAssemblerは、Reference Entity Pyramid (REP)エンコーダとEntity-Prompt Attention Fusion (EPAF)モジュールの2つの主要コンポーネントで構成されている。
REPエンコーダは、安定した拡散モデルの認知段階に包括的外観の詳細を注入するように設計されている。
同時にEPAFモジュールを使用してテキスト整列機能を効果的に統合する。
さらに,不足データの課題を軽減するため,トレーニングデータの事前処理を行う手法を提案する。
UCF-101, MSR-VTT, DAVISデータセット上での VideoAssembler フレームワークの評価は, FVD では 346.84 , UCF-101 では 48.01 である。
プロジェクトページはhttps://gulucaptain.github.io/videoassembler/にあります。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。
従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。
ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文 参考訳(メタデータ) (2023-11-08T00:56:31Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。