論文の概要: Compositional Video Synthesis with Action Graphs
- arxiv url: http://arxiv.org/abs/2006.15327v4
- Date: Thu, 10 Jun 2021 21:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:32:56.980225
- Title: Compositional Video Synthesis with Action Graphs
- Title(参考訳): アクショングラフを用いた合成ビデオ合成
- Authors: Amir Bar, Roei Herzig, Xiaolong Wang, Anna Rohrbach, Gal Chechik,
Trevor Darrell, Amir Globerson
- Abstract要約: アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
- 参考スコア(独自算出の注目度): 112.94651460161992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos of actions are complex signals containing rich compositional structure
in space and time. Current video generation methods lack the ability to
condition the generation on multiple coordinated and potentially simultaneous
timed actions. To address this challenge, we propose to represent the actions
in a graph structure called Action Graph and present the new ``Action Graph To
Video'' synthesis task. Our generative model for this task (AG2Vid)
disentangles motion and appearance features, and by incorporating a scheduling
mechanism for actions facilitates a timely and coordinated video generation. We
train and evaluate AG2Vid on the CATER and Something-Something V2 datasets, and
show that the resulting videos have better visual quality and semantic
consistency compared to baselines. Finally, our model demonstrates zero-shot
abilities by synthesizing novel compositions of the learned actions. For code
and pretrained models, see the project page https://roeiherz.github.io/AG2Video
- Abstract(参考訳): アクションビデオは、空間と時間に豊富な構成構造を含む複雑な信号である。
現在のビデオ生成方法は、複数の協調的および潜在的に同時的な動作で生成を条件付ける能力に欠ける。
この課題に対処するため、我々はAction Graphと呼ばれるグラフ構造のアクションを表現し、新しい `Action Graph To Video'' 合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
我々は、CATERおよびSomething V2データセット上でAG2Vidをトレーニングし、評価し、その結果の動画がベースラインよりも視覚的品質とセマンティック一貫性が優れていることを示す。
最後に,学習行動の新しい構成を合成することでゼロショット能力を示す。
コードと事前訓練されたモデルについては、プロジェクトページ https://roeiherz.github.io/AG2Videoを参照してください。
関連論文リスト
- VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Pose-guided Generative Adversarial Net for Novel View Action Synthesis [6.019777076722422]
アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。
我々は Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。
我々は、ターゲットビューにおけるシーケンシャルな映像特徴を効果的に生成するために、新しいローカル・グローバル空間変換モジュールを用いる。
論文 参考訳(メタデータ) (2021-10-15T10:33:09Z) - Sketch Me A Video [32.38205496481408]
本稿では、2つの粗悪なドーンスケッチを入力としてのみ使用して、リアルなポートレートビデオを作成することで、新しいビデオ合成タスクを提案する。
2段階のSketch-to-Videoモデルが提案されている。
論文 参考訳(メタデータ) (2021-10-10T05:40:11Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Temporal Relational Modeling with Self-Supervision for Action
Segmentation [38.62057004624234]
ビデオの時間関係をモデル化するための拡張時間グラフ推論モジュール(DTGRM)を紹介します。
特に,多レベル拡張時間グラフの構築により時間関係を捉え,モデル化する。
私たちのモデルは3つの挑戦的なデータセットで最先端のアクションセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T13:41:28Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。