論文の概要: RNA: Video Editing with ROI-based Neural Atlas
- arxiv url: http://arxiv.org/abs/2410.07600v1
- Date: Thu, 10 Oct 2024 04:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:06:31.007728
- Title: RNA: Video Editing with ROI-based Neural Atlas
- Title(参考訳): RNA:ROIベースのニューラルアトラスによるビデオ編集
- Authors: Jaekyeong Lee, Geonung Kim, Sunghyun Cho,
- Abstract要約: 我々は、ROIベースのニューラルアトラス(RNA)という、新しい関心領域(ROI)ベースのビデオ編集フレームワークを提案する。
以前の作業とは異なり、RNAはユーザーが編集領域を指定できるようにし、前景分離の必要性を取り除くことで編集プロセスを簡素化する。
ビデオ再構成のためのソフトニューラルネットワークモデルを導入し,高品質な編集結果を確実にする。
- 参考スコア(独自算出の注目度): 14.848279912686946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent growth of video-based Social Network Service (SNS) platforms, the demand for video editing among common users has increased. However, video editing can be challenging due to the temporally-varying factors such as camera movement and moving objects. While modern atlas-based video editing methods have addressed these issues, they often fail to edit videos including complex motion or multiple moving objects, and demand excessive computational cost, even for very simple edits. In this paper, we propose a novel region-of-interest (ROI)-based video editing framework: ROI-based Neural Atlas (RNA). Unlike prior work, RNA allows users to specify editing regions, simplifying the editing process by removing the need for foreground separation and atlas modeling for foreground objects. However, this simplification presents a unique challenge: acquiring a mask that effectively handles occlusions in the edited area caused by moving objects, without relying on an additional segmentation model. To tackle this, we propose a novel mask refinement approach designed for this specific challenge. Moreover, we introduce a soft neural atlas model for video reconstruction to ensure high-quality editing results. Extensive experiments show that RNA offers a more practical and efficient editing solution, applicable to a wider range of videos with superior quality compared to prior methods.
- Abstract(参考訳): 近年、ビデオベースのSNS(Social Network Service)プラットフォームが成長し、一般ユーザーの間でビデオ編集の需要が高まっている。
しかし,カメラの動きや移動物体などの時間的要因によって映像編集が困難になる場合がある。
現代のアトラスベースのビデオ編集手法はこれらの問題に対処しているが、複雑な動きや複数の移動物体を含むビデオの編集に失敗し、非常に単純な編集であっても過剰な計算コストを必要とすることが多い。
本稿では,新しい関心領域(ROI)ベースのビデオ編集フレームワークであるROIベースのニューラルアトラス(RNA)を提案する。
以前の作業とは異なり、RNAはユーザーが編集領域を指定できるようにし、前景分離や前景オブジェクトのアトラスモデリングの必要性を取り除くことで編集プロセスを簡素化する。
しかし、この単純化は、追加のセグメンテーションモデルに頼ることなく、移動物体によって生じる編集領域のオクルージョンを効果的に処理するマスクを取得するという、ユニークな課題を呈している。
そこで本研究では,この課題に対処する新しいマスク改良手法を提案する。
さらに,映像再構成のためのソフトニューラルネットワークモデルを導入し,高品質な編集結果を保証する。
大規模な実験により、RNAはより実用的で効率的な編集ソリューションを提供し、より広い範囲の動画に適用できることを示した。
関連論文リスト
- A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields [14.803266838721864]
Seal-3Dでは、ユーザーは幅広いNeRFに似たバックボーンで、ピクセルレベルの自由な方法でNeRFモデルを編集し、編集効果を即座にプレビューすることができる。
様々な編集タイプを展示するために、NeRF編集システムを構築している。
論文 参考訳(メタデータ) (2023-07-27T18:08:19Z) - INVE: Interactive Neural Video Editing [79.48055669064229]
対話型ニューラルビデオ編集(Interactive Neural Video Editing、INVE)は、ビデオクリップ全体へのスパースフレーム編集を一貫して伝播するリアルタイムビデオ編集ソリューションである。
我々の手法は、Layered Neural Atlas (LNA)の最近の研究にインスパイアされている。
LNAは,(1)対話的な編集に時間がかかりすぎること,(2)編集のユースケースに対して不十分なサポートを提供していること,の2つの大きな欠点に悩まされている。
論文 参考訳(メタデータ) (2023-07-15T00:02:41Z) - Diffusion Video Autoencoders: Toward Temporally Consistent Face Video
Editing via Disentangled Video Encoding [35.18070525015657]
拡散オートエンコーダに基づく新しい顔映像編集フレームワークを提案する。
我々のモデルは拡散モデルに基づいており、再構築と編集の両方を同時に行うことができる。
論文 参考訳(メタデータ) (2022-12-06T07:41:51Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。