論文の概要: The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing
- arxiv url: http://arxiv.org/abs/2207.09812v1
- Date: Wed, 20 Jul 2022 10:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:43:10.014941
- Title: The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing
- Title(参考訳): ビデオ編集の解剖:AIによるビデオ編集のためのデータセットとベンチマークスイート
- Authors: Dawit Mureja Argaw, Fabian Caba Heilbron, Joon-Young Lee, Markus
Woodson, In So Kweon
- Abstract要約: この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
- 参考スコア(独自算出の注目度): 90.59584961661345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning is transforming the video editing industry. Recent advances
in computer vision have leveled-up video editing tasks such as intelligent
reframing, rotoscoping, color grading, or applying digital makeups. However,
most of the solutions have focused on video manipulation and VFX. This work
introduces the Anatomy of Video Editing, a dataset, and benchmark, to foster
research in AI-assisted video editing. Our benchmark suite focuses on video
editing tasks, beyond visual effects, such as automatic footage organization
and assisted video assembling. To enable research on these fronts, we annotate
more than 1.5M tags, with relevant concepts to cinematography, from 196176
shots sampled from movie scenes. We establish competitive baseline methods and
detailed analyses for each of the tasks. We hope our work sparks innovative
research towards underexplored areas of AI-assisted video editing.
- Abstract(参考訳): 機械学習はビデオ編集業界を変えつつある。
コンピュータビジョンの最近の進歩は、インテリジェントリフレーミング、ロトスコープ、カラーグレーディング、デジタルメイクアップなどのビデオ編集タスクをレベルアップしている。
しかし、ほとんどのソリューションはビデオ操作とVFXに焦点を当てている。
本研究は、ai支援ビデオ編集の研究を促進するために、ビデオ編集、データセット、ベンチマークの解剖を紹介する。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立てなど,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
それぞれのタスクに対して,競争基準法と詳細な分析を行う。
われわれの研究が、AIによるビデオ編集の未発見分野への革新的な研究のきっかけになることを願っている。
関連論文リスト
- A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。
RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。
我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-10T03:29:56Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - AutoTransition: Learning to Recommend Video Transition Effects [20.384463765702417]
自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-27T12:00:42Z) - Learning to Cut by Watching Movies [114.57935905189416]
本稿は,コンピュータ映像編集の新しい課題,すなわちカットの可否をかき集めることに焦点を当てる。
私たちのキーとなるアイデアは、すでに編集済みのコンテンツを活用して、カットをトリガーするきめ細かいオーディオ視覚パターンを学ぶことです。
コントラスト学習により,リアルカットと人工カットの区別を学習するモデルを考案する。
論文 参考訳(メタデータ) (2021-08-09T18:37:17Z) - Where to look at the movies : Analyzing visual attention to understand
movie editing [75.16856363008128]
映画シーケンスの視線パターン情報を含む新しい視線追跡データベースを提案する。
このデータセット上で、最先端の計算サリエンシー技術がどのように振る舞うかを示す。
論文 参考訳(メタデータ) (2021-02-26T09:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。