Fugu-MT 論文翻訳(概要): HYouTube: Video Harmonization Dataset

論文の概要: HYouTube: Video Harmonization Dataset

arxiv url: http://arxiv.org/abs/2109.08809v1
Date: Sat, 18 Sep 2021 02:43:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-23 12:04:44.319012
Title: HYouTube: Video Harmonization Dataset
Title（参考訳）: H YouTube:ビデオハーモニゼーションデータセット
Authors: Xinyuan Lu, Shengyuan Huang, Li Niu, Wenyan Cong, Liqing Zhang
Abstract要約: ビデオ合成は、あるビデオの前景と別のビデオの背景を組み合わせることで、合成ビデオを生成することを目的としている。ビデオハーモニゼーションは、合成ビデオの前景を調整して、背景と互換性を持たせることを目的としている。我々は、合成合成ビデオを作成するために、実ビデオの前景を調整することで、新しいビデオ調和データセットHYouTubeを構築した。
参考スコア（独自算出の注目度）: 17.001495403749033
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Video composition aims to generate a composite video by combining the foreground of one video with the background of another video, but the inserted foreground may be incompatible with the background in terms of color and illumination. Video harmonization aims to adjust the foreground of a composite video to make it compatible with the background. So far, video harmonization has only received limited attention and there is no public dataset for video harmonization. In this work, we construct a new video harmonization dataset HYouTube by adjusting the foreground of real videos to create synthetic composite videos. Considering the domain gap between real composite videos and synthetic composite videos, we additionally create 100 real composite videos via copy-and-paste. Datasets are available at https://github.com/bcmi/Video-Harmonization-Dataset-HYouTube.
Abstract（参考訳）: ビデオコンポジションは、あるビデオの前景と別のビデオの背景を組み合わせることで合成ビデオを生成することを目的としているが、挿入された前景は、色と照明の点で背景と相容れない可能性がある。 video harmonizationは、複合ビデオの前景を調整して、背景と互換性を持たせることを目的としている。これまでのところ、ビデオハーモニゼーションは限定的であり、ビデオハーモニゼーションのためのパブリックデータセットはない。本研究では,合成合成ビデオを作成するために,実映像の前景を調整することで,新しいビデオ調和データセットHYouTubeを構築する。実合成ビデオと合成合成ビデオのドメインギャップを考慮すると、コピー&ペーストで100本の実合成ビデオを作成することができる。データセットはhttps://github.com/bcmi/Video-Harmonization-Dataset-HYouTubeで入手できる。

関連論文リスト

HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks [4.536530093400348]
既存のビデオ層分解モデルは、各ビデオに対して独立に訓練された暗黙の神経表現(INR)に依存している。本稿では,新しいビデオの学習を高速化するために,一般的なビデオ分解モデルを学習するためのメタラーニング戦略を提案する。我々の戦略は、シングルビデオオーバーフィッティングの問題を緩和し、重要なことは、新しい、目に見えないビデオに対するビデオ分解の収束を短縮する。
論文参考訳（メタデータ） (2025-03-21T16:24:47Z)
DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency [66.49423641279374]
DeCoは、人間と背景を別々に編集可能なターゲットとして扱うように設計された、新しいビデオ編集フレームワークである。そこで本研究では,人体を利用した非結合型動的人体表現法を提案する。本研究は, 通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張し, 最適化時の人間のテクスチャを向上する。
論文参考訳（メタデータ） (2024-08-14T11:53:40Z)
MVOC: a training-free multiple video object composition method with diffusion models [10.364986401722625]
拡散モデルに基づくMVOC法を提案する。まず、各ビデオオブジェクトに対してDDIMインバージョンを行い、対応するノイズ特性を得る。次に、画像編集手法で各オブジェクトを合成して編集し、合成ビデオの最初のフレームを得る。
論文参考訳（メタデータ） (2024-06-22T12:18:46Z)
VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-02-20T18:29:49Z)
DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis [15.857449277106827]
DiffSynthは、画像合成パイプラインをビデオ合成パイプラインに変換する新しいアプローチである。潜伏中のデクリッカリングフレームワークとビデオデクリッカリングアルゴリズムで構成されている。 Diff Synthの顕著な利点の1つは、様々なビデオ合成タスクに適用可能であることである。
論文参考訳（メタデータ） (2023-08-07T10:41:52Z)
VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs [34.924687342371485]
我々は、時相的に連続した$bftextStyle$表現であるVidStyleODEを提案し、$bftextStyle$とNeural-$bfODE$sをベースとした。提案手法は,テキスト誘導による外観操作,モーション操作,画像アニメーション,映像外挿など,実映像における様々なアプリケーションを実現する。
論文参考訳（メタデータ） (2023-04-12T17:57:15Z)
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文参考訳（メタデータ） (2023-03-23T17:01:59Z)
WALDO: Future Video Synthesis using Object Layer Decomposition and Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文参考訳（メタデータ） (2022-11-25T18:59:46Z)
MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文参考訳（メタデータ） (2022-11-20T16:40:31Z)
Deep Video Harmonization with Color Mapping Consistency [19.029045319893434]
ビデオハーモニゼーションは、合成ビデオの前景を調整して、背景と互換性を持たせることを目的としている。我々は、合成合成ビデオを作成するために、実ビデオの前景を調整することで、新しいビデオ調和データセットHYouTubeを構築した。
論文参考訳（メタデータ） (2022-05-02T07:10:18Z)
Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文参考訳（メタデータ） (2022-04-06T17:45:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。