論文の概要: VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models
- arxiv url: http://arxiv.org/abs/2311.18837v1
- Date: Thu, 30 Nov 2023 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:01:44.654091
- Title: VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models
- Title(参考訳): VIDiff:拡散モデルを用いたマルチモーダル命令による動画翻訳
- Authors: Zhen Xing and Qi Dai and Zihao Zhang and Hui Zhang and Han Hu and
Zuxuan Wu and Yu-Gang Jiang
- Abstract要約: Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
- 参考スコア(独自算出の注目度): 96.55004961251889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved significant success in image and video
generation. This motivates a growing interest in video editing tasks, where
videos are edited according to provided text descriptions. However, most
existing approaches only focus on video editing for short clips and rely on
time-consuming tuning or inference. We are the first to propose Video
Instruction Diffusion (VIDiff), a unified foundation model designed for a wide
range of video tasks. These tasks encompass both understanding tasks (such as
language-guided video object segmentation) and generative tasks (video editing
and enhancement). Our model can edit and translate the desired results within
seconds based on user instructions. Moreover, we design an iterative
auto-regressive method to ensure consistency in editing and enhancing long
videos. We provide convincing generative results for diverse input videos and
written instructions, both qualitatively and quantitatively. More examples can
be found at our website https://ChenHsing.github.io/VIDiff.
- Abstract(参考訳): 拡散モデルは画像生成とビデオ生成で大きな成功を収めた。
これにより、提供されたテキスト記述に従ってビデオが編集されるビデオ編集タスクへの関心が高まる。
しかし、既存のアプローチのほとんどはショートクリップの動画編集にのみフォーカスし、時間を要するチューニングや推論に依存している。
幅広いビデオタスク用に設計された統一基盤モデルであるvidiff(video instruction diffusion)を最初に提案した。
これらのタスクは、理解タスク(言語誘導ビデオオブジェクトセグメンテーションなど)と生成タスク(ビデオ編集と拡張)の両方を包含する。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
さらに,長いビデオの編集・拡張における一貫性を確保するために,反復的自動回帰手法を設計する。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
その他の例は、私たちのWebサイトhttps://ChenHsing.github.io/VIDiffで確認できます。
関連論文リスト
- Step Differences in Instructional Video [34.551572600535565]
本論文では,HowTo100Mから一対の動画を含む視覚的インストラクション・チューニングデータを生成する手法を提案する。
次に、ビデオ条件付き言語モデルをトレーニングして、複数の生のビデオに共同で理由付けします。
本モデルでは,ビデオペアとランキングビデオの違いを識別し,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-24T21:49:59Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing
with Diffusion Models [19.792535444735957]
RAVEは、事前訓練されたテキスト-画像拡散モデルを活用するゼロショットビデオ編集法である。
オリジナルモーションとセマンティックな構造を保ちながら高品質なビデオを生成する。
RAVEは、局所的な属性修正から形状変換まで、幅広い編集が可能である。
論文 参考訳(メタデータ) (2023-12-07T18:43:45Z) - AVID: Any-Length Video Inpainting with Diffusion Model [30.860927136236374]
拡散モデルを用いたAVID(Any-Length Video Inpainting with Diffusion Model)を提案する。
本モデルは,固定長映像の描画に有効な動作モジュールと調整可能な構造ガイダンスを備える。
実験により,映像の持続時間帯の異なる様々なインパインティングタイプを,高品質で頑健に扱うことが可能であることが確認された。
論文 参考訳(メタデータ) (2023-12-06T18:56:14Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。
提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。
我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文 参考訳(メタデータ) (2023-07-19T18:00:03Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - Learning to Cut by Watching Movies [114.57935905189416]
本稿は,コンピュータ映像編集の新しい課題,すなわちカットの可否をかき集めることに焦点を当てる。
私たちのキーとなるアイデアは、すでに編集済みのコンテンツを活用して、カットをトリガーするきめ細かいオーディオ視覚パターンを学ぶことです。
コントラスト学習により,リアルカットと人工カットの区別を学習するモデルを考案する。
論文 参考訳(メタデータ) (2021-08-09T18:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。