論文の概要: Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2004.06502v1
- Date: Tue, 14 Apr 2020 13:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:33:42.425990
- Title: Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning
- Title(参考訳): 自己監督学習による教師なしマルチモーダル動画翻訳
- Authors: Kangning Liu, Shuhang Gu, Andres Romero, Radu Timofte
- Abstract要約: 本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
- 参考スコア(独自算出の注目度): 92.17835753226333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing unsupervised video-to-video translation methods fail to produce
translated videos which are frame-wise realistic, semantic information
preserving and video-level consistent. In this work, we propose UVIT, a novel
unsupervised video-to-video translation model. Our model decomposes the style
and the content, uses the specialized encoder-decoder structure and propagates
the inter-frame information through bidirectional recurrent neural network
(RNN) units. The style-content decomposition mechanism enables us to achieve
style consistent video translation results as well as provides us with a good
interface for modality flexible translation. In addition, by changing the input
frames and style codes incorporated in our translation, we propose a video
interpolation loss, which captures temporal information within the sequence to
train our building blocks in a self-supervised manner. Our model can produce
photo-realistic, spatio-temporal consistent translated videos in a multimodal
way. Subjective and objective experimental results validate the superiority of
our model over existing methods. More details can be found on our project
website: https://uvit.netlify.com
- Abstract(参考訳): 既存の教師なしビデオからビデオへの翻訳方法は、フレームごとにリアルでセマンティックな情報保存とビデオレベルの一貫性を持った翻訳ビデオの生成に失敗している。
本研究では,新しい教師なしビデオ・ビデオ翻訳モデルであるUVITを提案する。
我々のモデルは、スタイルと内容を分解し、特殊なエンコーダデコーダ構造を使用し、双方向リカレントニューラルネットワーク(RNN)ユニットを介してフレーム間情報を伝搬する。
スタイルコンテンツ分解機構により,スタイル一貫性のあるビデオ翻訳結果を実現するとともに,モダリティフレキシブル翻訳のための優れたインターフェースを提供する。
さらに,翻訳に組み込まれた入力フレームやスタイルコードを変更することで,映像補間損失を補間し,シーケンス内の時間情報をキャプチャして,ビルディングブロックを自己指導的に訓練する手法を提案する。
本モデルは,マルチモーダルな方法で,フォトリアリスティックで時空間的一貫性のあるビデオを生成することができる。
主観的および客観的な実験結果から,既存の手法よりも優れたモデルが得られた。
詳細はプロジェクトのwebサイト(https://uvit.netlify.com)を参照してください。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。