論文の概要: Cross-View Exocentric to Egocentric Video Synthesis
- arxiv url: http://arxiv.org/abs/2107.03120v1
- Date: Wed, 7 Jul 2021 10:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 13:54:32.631708
- Title: Cross-View Exocentric to Egocentric Video Synthesis
- Title(参考訳): エゴセントリックビデオ合成のためのクロスビューエキソセントリック
- Authors: Gaowen Liu, Hao Tang, Hugo Latapie, Jason Corso, Yan Yan
- Abstract要約: クロスビュービデオ合成タスクは、あるビューの動画シーケンスを、別のビューから劇的に異なるビューから生成することを目的としている。
本稿では,空間情報と時間情報の両方を学習するために,2方向の空間的時間的注意融合生成適応ネットワーク(STA-GAN)を提案する。
提案したSTA-GANは、時間枝、空間枝、注意融合の3つの部分から構成される。
- 参考スコア(独自算出の注目度): 18.575642755375107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view video synthesis task seeks to generate video sequences of one view
from another dramatically different view. In this paper, we investigate the
exocentric (third-person) view to egocentric (first-person) view video
generation task. This is challenging because egocentric view sometimes is
remarkably different from the exocentric view. Thus, transforming the
appearances across the two different views is a non-trivial task. Particularly,
we propose a novel Bi-directional Spatial Temporal Attention Fusion Generative
Adversarial Network (STA-GAN) to learn both spatial and temporal information to
generate egocentric video sequences from the exocentric view. The proposed
STA-GAN consists of three parts: temporal branch, spatial branch, and attention
fusion. First, the temporal and spatial branches generate a sequence of fake
frames and their corresponding features. The fake frames are generated in both
downstream and upstream directions for both temporal and spatial branches.
Next, the generated four different fake frames and their corresponding features
(spatial and temporal branches in two directions) are fed into a novel
multi-generation attention fusion module to produce the final video sequence.
Meanwhile, we also propose a novel temporal and spatial dual-discriminator for
more robust network optimization. Extensive experiments on the Side2Ego and
Top2Ego datasets show that the proposed STA-GAN significantly outperforms the
existing methods.
- Abstract(参考訳): クロスビュービデオ合成タスクは、別の異なるビューからあるビューのビデオシーケンスを生成する。
本稿では,エゴセントリック(一人称)映像生成タスクにおけるエキソセントリック(三人称)視点について検討する。
これは、エゴセントリックなビューとエゴセントリックなビューとは大きく異なる場合があります。
したがって、外観を2つの異なる視点に変換することは非自明な作業である。
特に,空間的および時間的情報を学習し,エゴセントリックな映像列を生成するための双方向空間的時空間的注意融合生成広告ネットワーク(sta-gan)を提案する。
提案するsta-ganは,時間分枝,空間分枝,注意融合の3部からなる。
まず、時間枝と空間枝は、一連の偽フレームとその対応する特徴を生成する。
擬似フレームは、時空間分岐と時空間分岐の両方に対して下流方向と上流方向の両方で生成される。
次に、生成された4つの異なるフェイクフレームとその対応する特徴(2方向の空間的および時間的分岐)を新しい多世代注意融合モジュールに供給し、最終映像シーケンスを生成する。
また,よりロバストなネットワーク最適化のための時間的および空間的二重判別器を提案する。
Side2EgoデータセットとTop2Egoデータセットの大規模な実験は、提案されたSTA-GANが既存の手法を大幅に上回っていることを示している。
関連論文リスト
- Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。