論文の概要: INVE: Interactive Neural Video Editing
- arxiv url: http://arxiv.org/abs/2307.07663v1
- Date: Sat, 15 Jul 2023 00:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 18:48:32.737559
- Title: INVE: Interactive Neural Video Editing
- Title(参考訳): INVE:インタラクティブなニューラルビデオ編集
- Authors: Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, Joon-Young Lee
- Abstract要約: 対話型ニューラルビデオ編集(Interactive Neural Video Editing、INVE)は、ビデオクリップ全体へのスパースフレーム編集を一貫して伝播するリアルタイムビデオ編集ソリューションである。
我々の手法は、Layered Neural Atlas (LNA)の最近の研究にインスパイアされている。
LNAは,(1)対話的な編集に時間がかかりすぎること,(2)編集のユースケースに対して不十分なサポートを提供していること,の2つの大きな欠点に悩まされている。
- 参考スコア(独自算出の注目度): 79.48055669064229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Interactive Neural Video Editing (INVE), a real-time video editing
solution, which can assist the video editing process by consistently
propagating sparse frame edits to the entire video clip. Our method is inspired
by the recent work on Layered Neural Atlas (LNA). LNA, however, suffers from
two major drawbacks: (1) the method is too slow for interactive editing, and
(2) it offers insufficient support for some editing use cases, including direct
frame editing and rigid texture tracking. To address these challenges we
leverage and adopt highly efficient network architectures, powered by
hash-grids encoding, to substantially improve processing speed. In addition, we
learn bi-directional functions between image-atlas and introduce vectorized
editing, which collectively enables a much greater variety of edits in both the
atlas and the frames directly. Compared to LNA, our INVE reduces the learning
and inference time by a factor of 5, and supports various video editing
operations that LNA cannot. We showcase the superiority of INVE over LNA in
interactive video editing through a comprehensive quantitative and qualitative
analysis, highlighting its numerous advantages and improved performance. For
video results, please see https://gabriel-huang.github.io/inve/
- Abstract(参考訳): 本稿では,リアルタイムビデオ編集ソリューションであるinteractive neural video editing (inve)を提案する。
我々の手法は、最近のLayered Neural Atlas (LNA)の研究にインスパイアされている。
しかしLNAは,(1)対話的な編集に時間がかかりすぎること,(2)直接フレーム編集やテクスチャトラッキングなど,いくつかの編集ユースケースに対するサポートが不十分であること,の2つの大きな欠点に悩まされている。
これらの課題に対処するために,ハッシュグレード符号化を利用した高効率ネットワークアーキテクチャを活用し,処理速度を大幅に向上させる。
さらに、画像アトラス間の双方向機能を学び、ベクトル化編集を導入し、アトラスとフレームの双方でより多彩な編集を可能にする。
LNAと比較して、我々のINVEは学習時間と推論時間を5倍に削減し、LNAができない様々なビデオ編集操作をサポートしています。
本稿では,インタラクティブビデオ編集におけるinveの優位を定量的・質的分析を通じて示し,その長所と性能の向上を強調する。
ビデオ結果については、https://gabriel-huang.github.io/inve/をご覧ください。
関連論文リスト
- RNA: Video Editing with ROI-based Neural Atlas [14.848279912686946]
我々は、ROIベースのニューラルアトラス(RNA)という、新しい関心領域(ROI)ベースのビデオ編集フレームワークを提案する。
以前の作業とは異なり、RNAはユーザーが編集領域を指定できるようにし、前景分離の必要性を取り除くことで編集プロセスを簡素化する。
ビデオ再構成のためのソフトニューラルネットワークモデルを導入し,高品質な編集結果を確実にする。
論文 参考訳(メタデータ) (2024-10-10T04:17:19Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。