論文の概要: SSGVS: Semantic Scene Graph-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2211.06119v1
- Date: Fri, 11 Nov 2022 11:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:32:11.949931
- Title: SSGVS: Semantic Scene Graph-to-Video Synthesis
- Title(参考訳): ssgvs:セマンティックシーンのグラフからビデオへの合成
- Authors: Yuren Cong, Jinhui Yi, Bodo Rosenhahn, Michael Ying Yang
- Abstract要約: 映像合成のための入力として,セマンティックな映像シーングラフを導入する。
セマンティックシーングラフ・ビデオ合成フレームワークを提案する。
我々は,アクションゲノムデータセット上でSSGVSや他の最先端ビデオ合成モデルを評価する。
- 参考スコア(独自算出の注目度): 30.358000582198024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a natural extension of the image synthesis task, video synthesis has
attracted a lot of interest recently. Many image synthesis works utilize class
labels or text as guidance. However, neither labels nor text can provide
explicit temporal guidance, such as when an action starts or ends. To overcome
this limitation, we introduce semantic video scene graphs as input for video
synthesis, as they represent the spatial and temporal relationships between
objects in the scene. Since video scene graphs are usually temporally discrete
annotations, we propose a video scene graph (VSG) encoder that not only encodes
the existing video scene graphs but also predicts the graph representations for
unlabeled frames. The VSG encoder is pre-trained with different contrastive
multi-modal losses. A semantic scene graph-to-video synthesis framework
(SSGVS), based on the pre-trained VSG encoder, VQ-VAE, and auto-regressive
Transformer, is proposed to synthesize a video given an initial scene image and
a non-fixed number of semantic scene graphs. We evaluate SSGVS and other
state-of-the-art video synthesis models on the Action Genome dataset and
demonstrate the positive significance of video scene graphs in video synthesis.
The source code will be released.
- Abstract(参考訳): 画像合成タスクの自然な拡張として、ビデオ合成は近年多くの関心を集めている。
多くの画像合成はクラスラベルやテキストを指導として利用する。
しかしながら、ラベルやテキストは、アクションの開始や終了など、明確な時間的ガイダンスを提供することができない。
この制限を克服するために、シーン内のオブジェクト間の空間的および時間的関係を表現するため、ビデオ合成の入力としてセマンティックビデオシーングラフを導入する。
ビデオシーングラフは通常、時間的に離散的なアノテーションであるため、既存のビデオシーングラフをエンコードするだけでなく、ラベル付きフレームのグラフ表現を予測するビデオシーングラフ(vsg)エンコーダを提案する。
VSGエンコーダは、異なる対照的なマルチモーダル損失で事前訓練されている。
事前訓練されたVSGエンコーダ、VQ-VAE、自動回帰変換器をベースとしたセマンティックシーングラフ合成フレームワーク(SSGVS)を提案し、初期シーン画像と非固定数のセマンティックシーングラフを合成する。
我々は、アクションゲノムデータセット上でSSGVSや他の最先端ビデオ合成モデルを評価し、ビデオ合成における映像シーングラフの意義を実証した。
ソースコードはリリースされます。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - DiffSynth: Latent In-Iteration Deflickering for Realistic Video
Synthesis [15.857449277106827]
DiffSynthは、画像合成パイプラインをビデオ合成パイプラインに変換する新しいアプローチである。
潜伏中のデクリッカリングフレームワークとビデオデクリッカリングアルゴリズムで構成されている。
Diff Synthの顕著な利点の1つは、様々なビデオ合成タスクに適用可能であることである。
論文 参考訳(メタデータ) (2023-08-07T10:41:52Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z) - SG2Caps: Revisiting Scene Graphs for Image Captioning [37.58310822924814]
本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
論文 参考訳(メタデータ) (2021-02-09T18:00:53Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。