Fugu-MT 論文翻訳(概要): Playable Video Generation

論文の概要: Playable Video Generation

arxiv url: http://arxiv.org/abs/2101.12195v1
Date: Thu, 28 Jan 2021 18:55:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-01-31 18:27:42.827399
Title: Playable Video Generation
Title（参考訳）: 再生可能なビデオ生成
Authors: Willi Menapace, St\'ephane Lathuili\`ere, Sergey Tulyakov, Aliaksandr Siarohin, Elisa Ricci
Abstract要約: 我々は,ユーザが生成した映像を,ビデオゲームのように毎回個別のアクションを選択することで制御できるようにすることを目標とする。タスクの難しさは、意味的に一貫性のあるアクションを学習することと、ユーザ入力に条件付けされたリアルなビデオを生成することの両方にある。本稿では,ビデオの大規模なデータセットに基づいて,自己教師型で訓練されたPVGのための新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 47.531594626822155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces the unsupervised learning problem of playable video generation (PVG). In PVG, we aim at allowing a user to control the generated video by selecting a discrete action at every time step as when playing a video game. The difficulty of the task lies both in learning semantically consistent actions and in generating realistic videos conditioned on the user input. We propose a novel framework for PVG that is trained in a self-supervised manner on a large dataset of unlabelled videos. We employ an encoder-decoder architecture where the predicted action labels act as bottleneck. The network is constrained to learn a rich action space using, as main driving loss, a reconstruction loss on the generated video. We demonstrate the effectiveness of the proposed approach on several datasets with wide environment variety. Further details, code and examples are available on our project page willi-menapace.github.io/playable-video-generation-website.
Abstract（参考訳）: 本稿では,再生可能ビデオ生成(PVG)の教師なし学習問題を紹介する。 pvgでは、ゲームプレイ時のように、時間ステップ毎に離散アクションを選択して、ユーザが生成した映像を制御できるようにする。タスクの難しさは、意味的に一貫したアクションを学習することと、ユーザ入力に基づいて条件付けられた現実的なビデオを生成することにある。本稿では,非ラベルビデオの大規模データセット上で自己教師あり方式で学習するpvgのための新しいフレームワークを提案する。予測されたアクションラベルがボトルネックとなるエンコーダ・デコーダアーキテクチャを採用している。ネットワークは、生成したビデオの再生損失を主駆動損失として、リッチなアクション空間を学習することを制約される。提案手法の有効性を,幅広い環境変数を持つ複数のデータセットに示す。詳細はプロジェクトページ willi-menapace.github.io/playable-video-generation-website をご覧ください。

関連論文リスト

Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文参考訳（メタデータ） (2025-04-30T22:34:52Z)
Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。 3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文参考訳（メタデータ） (2025-04-02T17:59:57Z)
PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning [19.67005754615478]
PlaySlotはオブジェクト中心のビデオ予測モデルであり、未ラベルのビデオシーケンスからオブジェクト表現と潜在アクションを推論する。 PlaySlotは、ビデオのダイナミックスから推測できる潜在アクションで条件付けられた複数の可能な先物を生成することができる。その結果,PlaySlotは,異なる環境における映像予測において,オブジェクト中心のベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-02-11T14:50:10Z)
Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文参考訳（メタデータ） (2024-12-27T17:42:29Z)
Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-12T18:41:20Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文参考訳（メタデータ） (2024-02-20T16:39:23Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
Weakly Supervised Two-Stage Training Scheme for Deep Video Fight Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文参考訳（メタデータ） (2022-09-23T08:29:16Z)
Enabling Weakly-Supervised Temporal Action Localization from On-Device Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文参考訳（メタデータ） (2022-08-25T13:41:03Z)
Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文参考訳（メタデータ） (2022-01-18T11:42:14Z)
Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-07-23T07:18:20Z)
Unsupervised Multimodal Video-to-Video Translation via Self-Supervised Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文参考訳（メタデータ） (2020-04-14T13:44:30Z)
Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文参考訳（メタデータ） (2020-03-21T02:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。