論文の概要: A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model
- arxiv url: http://arxiv.org/abs/2411.04942v1
- Date: Thu, 07 Nov 2024 18:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:27.347124
- Title: A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model
- Title(参考訳): 事前学習型視覚言語モデルを用いた強化学習に基づく自動ビデオ編集手法
- Authors: Panwen Hu, Nan Xiao, Feifei Li, Yongquan Chen, Rui Huang,
- Abstract要約: まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
- 参考スコア(独自算出の注目度): 10.736207095604414
- License:
- Abstract: In this era of videos, automatic video editing techniques attract more and more attention from industry and academia since they can reduce workloads and lower the requirements for human editors. Existing automatic editing systems are mainly scene- or event-specific, e.g., soccer game broadcasting, yet the automatic systems for general editing, e.g., movie or vlog editing which covers various scenes and events, were rarely studied before, and converting the event-driven editing method to a general scene is nontrivial. In this paper, we propose a two-stage scheme for general editing. Firstly, unlike previous works that extract scene-specific features, we leverage the pre-trained Vision-Language Model (VLM) to extract the editing-relevant representations as editing context. Moreover, to close the gap between the professional-looking videos and the automatic productions generated with simple guidelines, we propose a Reinforcement Learning (RL)-based editing framework to formulate the editing problem and train the virtual editor to make better sequential editing decisions. Finally, we evaluate the proposed method on a more general editing task with a real movie dataset. Experimental results demonstrate the effectiveness and benefits of the proposed context representation and the learning ability of our RL-based editing framework.
- Abstract(参考訳): この時代には、ビデオの自動編集技術は、ワークロードを削減し、人間の編集者の要求を低減できるため、業界や学界からますます注目を集めている。
既存の自動編集システムは、主にシーンやイベント固有の、例えばサッカーの試合の放送であるが、様々なシーンやイベントをカバーする一般的な編集システム、例えば映画やvlogの編集は、これまでほとんど研究されておらず、イベント駆動の編集方法を一般的なシーンに変換することは容易ではない。
本稿では,汎用編集のための2段階の手法を提案する。
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を利用して編集関連表現を編集コンテキストとして抽出する。
さらに,プロライクなビデオと簡単なガイドラインで生成された自動生成とのギャップを埋めるために,RLベースの編集フレームワークを提案し,編集問題を定式化し,仮想エディターを訓練して,より逐次的な編集決定を行う。
最後に,実際の映画データセットを用いて,より一般的な編集作業において提案手法を評価する。
実験により,提案した文脈表現の有効性と,RLベースの編集フレームワークの学習能力について検証した。
関連論文リスト
- VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing [91.60658973688996]
グローバルおよびローカルなビデオ編集のためのVIA統合ビデオ適応フレームワークについて紹介する。
我々は,VIAが一貫した長いビデオ編集を数分で達成できることを示し,高度なビデオ編集タスクの可能性を秘めている。
論文 参考訳(メタデータ) (2024-06-18T17:51:37Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - ExpressEdit: Video Editing with Natural Language and Sketching [28.814923641627825]
マルチモダリティ$-$natural Language (NL) とスケッチは、人間が表現に使用する自然なモダリティであり、ビデオエディタをサポートするために$-$canを使用することができる。
我々は,NLテキストによる動画編集と映像フレームのスケッチを可能にするExpressEditを提案する。
論文 参考訳(メタデータ) (2024-03-26T13:34:21Z) - Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - CoditT5: Pretraining for Source Code and Natural Language Editing [34.77621217370665]
CoditT5は、大量のソースコードと自然言語コメントで事前訓練された、ソフトウェア関連の編集タスクのための大規模な言語モデルである。
コメント更新、バグ修正、自動コードレビューなど、さまざまなダウンストリーム編集タスクを微調整します。
論文 参考訳(メタデータ) (2022-08-10T16:59:40Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。