論文の概要: Video to Video Generative Adversarial Network for Few-shot Learning Based on Policy Gradient
- arxiv url: http://arxiv.org/abs/2410.20657v1
- Date: Mon, 28 Oct 2024 01:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:16:16.575187
- Title: Video to Video Generative Adversarial Network for Few-shot Learning Based on Policy Gradient
- Title(参考訳): ポリシーグラディエントに基づくFew-shotラーニングのためのビデオ・ビデオ・ビデオ・ジェネレーティブ・アドバイサル・ネットワーク
- Authors: Yintai Ma, Diego Klabjan, Jean Utke,
- Abstract要約: 条件付き条件-映像合成のための新しいディープニューラルネットワークアプローチであるRL-V2V-GANを提案する。
本手法は,ソースビデオドメインのスタイルを保存しながら,ソースビデオドメインからターゲットビデオドメインへの勾配マッピングを学習することを目的としている。
実験の結果,RL-V2V-GANは時間的コヒーレントなビデオ結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 12.07088416665005
- License:
- Abstract: The development of sophisticated models for video-to-video synthesis has been facilitated by recent advances in deep reinforcement learning and generative adversarial networks (GANs). In this paper, we propose RL-V2V-GAN, a new deep neural network approach based on reinforcement learning for unsupervised conditional video-to-video synthesis. While preserving the unique style of the source video domain, our approach aims to learn a mapping from a source video domain to a target video domain. We train the model using policy gradient and employ ConvLSTM layers to capture the spatial and temporal information by designing a fine-grained GAN architecture and incorporating spatio-temporal adversarial goals. The adversarial losses aid in content translation while preserving style. Unlike traditional video-to-video synthesis methods requiring paired inputs, our proposed approach is more general because it does not require paired inputs. Thus, when dealing with limited videos in the target domain, i.e., few-shot learning, it is particularly effective. Our experiments show that RL-V2V-GAN can produce temporally coherent video results. These results highlight the potential of our approach for further advances in video-to-video synthesis.
- Abstract(参考訳): 映像合成のための高度なモデルの開発は、近年の強化学習とGAN(Generative Adversarial Network)の進歩によって促進されている。
本稿では、教師なし条件付きビデオ-ビデオ合成のための強化学習に基づく新しいディープニューラルネットワークアプローチであるRL-V2V-GANを提案する。
本手法は,ソースビデオドメインのユニークなスタイルを保ちながら,ソースビデオドメインからターゲットビデオドメインへのマッピングを学習することを目的としている。
我々は、ポリシー勾配を用いてモデルを訓練し、空間的および時間的情報を取得するためにConvLSTMレイヤを使用し、粒度の細かいGANアーキテクチャを設計し、時空間の対向目標を組み込む。
敵対的な損失は、スタイルを維持しながらコンテンツ翻訳に役立つ。
従来のビデオ合成法とは異なり,提案手法はペア入力を必要としないため,より一般的な手法である。
したがって、ターゲット領域の制限されたビデオ、すなわち数発の学習を扱う場合、特に効果的である。
実験の結果,RL-V2V-GANは時間的コヒーレントなビデオ結果が得られることがわかった。
これらの結果は,ビデオ合成のさらなる進歩に向けたアプローチの可能性を強調している。
関連論文リスト
- SVASTIN: Sparse Video Adversarial Attack via Spatio-Temporal Invertible Neural Networks [14.87613382899623]
既存の敵攻撃法は、主に勾配に基づくアプローチを採り、目立った摂動を伴う敵映像を生成する。
本稿では,S-Brittany Invertible Neural Networks (VASTIN) を介し,非知覚的特徴空間情報交換による対角的映像生成のための新しいスパース・アタックを提案する。
UCF-101 と Kinetics-400 に関する実験により,提案したSVASTIN は,非知覚性の高い対人的例を,より高い騙し率を持つ最先端の手法よりも生成できることが実証された。
論文 参考訳(メタデータ) (2024-06-04T01:58:32Z) - ASF-Net: Robust Video Deraining via Temporal Alignment and Online
Adaptive Learning [47.10392889695035]
本稿では,時間シフトモジュールを組み込んだ新しい計算パラダイムであるアライメント・シフト・フュージョン・ネットワーク(ASF-Net)を提案する。
LArgeスケールのRAINYビデオデータセット(LARA)を構築し,このコミュニティの開発を支援する。
提案手法は,3つのベンチマークにおいて優れた性能を示し,実世界のシナリオにおいて魅力的な視覚的品質を示す。
論文 参考訳(メタデータ) (2023-09-02T14:50:13Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文 参考訳(メタデータ) (2020-04-14T13:44:30Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。