論文の概要: InteractiveVideo: User-Centric Controllable Video Generation with
Synergistic Multimodal Instructions
- arxiv url: http://arxiv.org/abs/2402.03040v1
- Date: Mon, 5 Feb 2024 14:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:43:36.805860
- Title: InteractiveVideo: User-Centric Controllable Video Generation with
Synergistic Multimodal Instructions
- Title(参考訳): InteractiveVideo: シンジスティックなマルチモーダル命令によるユーザ中心制御可能なビデオ生成
- Authors: Yiyuan Zhang, Yuhao Kang, Zhixin Zhang, Xiaohan Ding, Sanyuan Zhao,
Xiangyu Yue
- Abstract要約: $textitInteractiveVideo$は、ビデオ生成のためのユーザー中心のフレームワークである。
本稿では,ユーザによるマルチモーダル命令を生成モデルにシームレスに統合するSynergistic Multimodal Instruction機構を提案する。
textitInteractiveVideo$で、ユーザーはビデオの重要な側面を慎重にカスタマイズする柔軟性を与えられる。
- 参考スコア(独自算出の注目度): 23.536645072596656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce $\textit{InteractiveVideo}$, a user-centric framework for video
generation. Different from traditional generative approaches that operate based
on user-provided images or text, our framework is designed for dynamic
interaction, allowing users to instruct the generative model through various
intuitive mechanisms during the whole generation process, e.g. text and image
prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal
Instruction mechanism, designed to seamlessly integrate users' multimodal
instructions into generative models, thus facilitating a cooperative and
responsive interaction between user inputs and the generative process. This
approach enables iterative and fine-grained refinement of the generation result
through precise and effective user instructions. With
$\textit{InteractiveVideo}$, users are given the flexibility to meticulously
tailor key aspects of a video. They can paint the reference image, edit
semantics, and adjust video motions until their requirements are fully met.
Code, models, and demo are available at
https://github.com/invictus717/InteractiveVideo
- Abstract(参考訳): ビデオ生成のためのユーザ中心のフレームワークである$\textit{InteractiveVideo}$を紹介します。
ユーザが提供する画像やテキストをベースとした従来の生成アプローチとは異なり,我々のフレームワークは動的インタラクションのために設計されており,テキストや画像のプロンプト,絵画,ドラッグ・アンド・ドロップなどの生成プロセス全体を通じて,さまざまな直感的なメカニズムを通じて生成モデルを指示することができる。
本稿では,ユーザのマルチモーダル命令を生成モデルにシームレスに統合し,ユーザ入力と生成プロセス間の協調的かつ応答的な相互作用を容易にするための,Synergistic Multimodal Instruction機構を提案する。
このアプローチは、正確かつ効果的なユーザー指示により、生成結果の反復的かつきめ細かい精細化を可能にする。
$\textit{InteractiveVideo}$で、ユーザーはビデオの重要な側面を慎重にカスタマイズする柔軟性を与えられる。
リファレンスイメージを描き、セマンティクスを編集し、要求が完全に満たされるまでビデオの動きを調整することができる。
コード、モデル、デモはhttps://github.com/invictus717/interactivevideoで利用可能である。
関連論文リスト
- Explore Synergistic Interaction Across Frames for Interactive Video
Object Segmentation [70.93295323156876]
複数のフレームを同時に受け入れることのできるフレームワークを提案し、フレーム間の相乗的相互作用(SIAF)を探索する。
我々のSwinB-SIAFはDAVIS 2017(89.6%、J&F@60)で最先端のパフォーマンスを達成した
我々のR50-SIAFは、挑戦的なマルチオブジェクトシナリオの下で、最先端の競合製品よりも3倍高速です。
論文 参考訳(メタデータ) (2024-01-23T04:19:15Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Interactive Text Generation [75.23894005664533]
我々は,対話型テキスト生成タスクを導入し,実際のユーザを巻き込むことなく,対話型テキスト生成モデルのトレーニングを可能にする。
我々は、Imitation Learningを用いてインタラクティブモデルをトレーニングし、競合する非インタラクティブな生成モデルに対する実験により、インタラクティブにトレーニングされたモデルは非インタラクティブなモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-02T01:57:17Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - A Framework for Integrating Gesture Generation Models into Interactive
Conversational Agents [0.0]
Embodied conversational agent (ECA) は、自然かつ効率的なユーザとの対話において、非言語行動の恩恵を受ける。
近年のジェスチャー生成手法は,ユーザとのリアルタイムインタラクションでは評価されていない。
本稿では,現代のジェスチャ生成モデルの評価を容易にするための概念実証フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:31:21Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Multimodal Matching Transformer for Live Commenting [97.06576354830736]
自動的なライブコメントは、視聴者にリアルタイムでビデオに対するコメントを提供することを目的としている。
このタスクの最近の研究は、コメントを生成するエンコーダ-デコーダモデルを採用している。
本稿では,コメント,視覚,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
論文 参考訳(メタデータ) (2020-02-07T07:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。