論文の概要: HYouTube: Video Harmonization Dataset
- arxiv url: http://arxiv.org/abs/2109.08809v1
- Date: Sat, 18 Sep 2021 02:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 12:04:44.319012
- Title: HYouTube: Video Harmonization Dataset
- Title(参考訳): H YouTube:ビデオハーモニゼーションデータセット
- Authors: Xinyuan Lu, Shengyuan Huang, Li Niu, Wenyan Cong, Liqing Zhang
- Abstract要約: ビデオ合成は、あるビデオの前景と別のビデオの背景を組み合わせることで、合成ビデオを生成することを目的としている。
ビデオハーモニゼーションは、合成ビデオの前景を調整して、背景と互換性を持たせることを目的としている。
我々は、合成合成ビデオを作成するために、実ビデオの前景を調整することで、新しいビデオ調和データセットHYouTubeを構築した。
- 参考スコア(独自算出の注目度): 17.001495403749033
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video composition aims to generate a composite video by combining the
foreground of one video with the background of another video, but the inserted
foreground may be incompatible with the background in terms of color and
illumination. Video harmonization aims to adjust the foreground of a composite
video to make it compatible with the background. So far, video harmonization
has only received limited attention and there is no public dataset for video
harmonization. In this work, we construct a new video harmonization dataset
HYouTube by adjusting the foreground of real videos to create synthetic
composite videos. Considering the domain gap between real composite videos and
synthetic composite videos, we additionally create 100 real composite videos
via copy-and-paste. Datasets are available at
https://github.com/bcmi/Video-Harmonization-Dataset-HYouTube.
- Abstract(参考訳): ビデオコンポジションは、あるビデオの前景と別のビデオの背景を組み合わせることで合成ビデオを生成することを目的としているが、挿入された前景は、色と照明の点で背景と相容れない可能性がある。
video harmonizationは、複合ビデオの前景を調整して、背景と互換性を持たせることを目的としている。
これまでのところ、ビデオハーモニゼーションは限定的であり、ビデオハーモニゼーションのためのパブリックデータセットはない。
本研究では,合成合成ビデオを作成するために,実映像の前景を調整することで,新しいビデオ調和データセットHYouTubeを構築する。
実合成ビデオと合成合成ビデオのドメインギャップを考慮すると、コピー&ペーストで100本の実合成ビデオを作成することができる。
データセットはhttps://github.com/bcmi/Video-Harmonization-Dataset-HYouTubeで入手できる。
関連論文リスト
- DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency [66.49423641279374]
DeCoは、人間と背景を別々に編集可能なターゲットとして扱うように設計された、新しいビデオ編集フレームワークである。
そこで本研究では,人体を利用した非結合型動的人体表現法を提案する。
本研究は, 通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張し, 最適化時の人間のテクスチャを向上する。
論文 参考訳(メタデータ) (2024-08-14T11:53:40Z) - MVOC: a training-free multiple video object composition method with diffusion models [10.364986401722625]
拡散モデルに基づくMVOC法を提案する。
まず、各ビデオオブジェクトに対してDDIMインバージョンを行い、対応するノイズ特性を得る。
次に、画像編集手法で各オブジェクトを合成して編集し、合成ビデオの最初のフレームを得る。
論文 参考訳(メタデータ) (2024-06-22T12:18:46Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - DiffSynth: Latent In-Iteration Deflickering for Realistic Video
Synthesis [15.857449277106827]
DiffSynthは、画像合成パイプラインをビデオ合成パイプラインに変換する新しいアプローチである。
潜伏中のデクリッカリングフレームワークとビデオデクリッカリングアルゴリズムで構成されている。
Diff Synthの顕著な利点の1つは、様々なビデオ合成タスクに適用可能であることである。
論文 参考訳(メタデータ) (2023-08-07T10:41:52Z) - VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs [34.924687342371485]
我々は、時相的に連続した$bftextStyle$表現であるVidStyleODEを提案し、$bftextStyle$とNeural-$bfODE$sをベースとした。
提案手法は,テキスト誘導による外観操作,モーション操作,画像アニメーション,映像外挿など,実映像における様々なアプリケーションを実現する。
論文 参考訳(メタデータ) (2023-04-12T17:57:15Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Deep Video Harmonization with Color Mapping Consistency [19.029045319893434]
ビデオハーモニゼーションは、合成ビデオの前景を調整して、背景と互換性を持たせることを目的としている。
我々は、合成合成ビデオを作成するために、実ビデオの前景を調整することで、新しいビデオ調和データセットHYouTubeを構築した。
論文 参考訳(メタデータ) (2022-05-02T07:10:18Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。