論文の概要: Intention-driven Ego-to-Exo Video Generation
- arxiv url: http://arxiv.org/abs/2403.09194v1
- Date: Thu, 14 Mar 2024 09:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:16:56.398944
- Title: Intention-driven Ego-to-Exo Video Generation
- Title(参考訳): 意図駆動型エゴ・ツー・エクソビデオ生成
- Authors: Hongchen Luo, Kai Zhu, Wei Zhai, Yang Cao,
- Abstract要約: エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。
本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。
我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
- 参考スコア(独自算出の注目度): 16.942040396018736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ego-to-exo video generation refers to generating the corresponding exocentric video according to the egocentric video, providing valuable applications in AR/VR and embodied AI. Benefiting from advancements in diffusion model techniques, notable progress has been achieved in video generation. However, existing methods build upon the spatiotemporal consistency assumptions between adjacent frames, which cannot be satisfied in the ego-to-exo scenarios due to drastic changes in views. To this end, this paper proposes an Intention-Driven Ego-to-exo video generation framework (IDE) that leverages action intention consisting of human movement and action description as view-independent representation to guide video generation, preserving the consistency of content and motion. Specifically, the egocentric head trajectory is first estimated through multi-view stereo matching. Then, cross-view feature perception module is introduced to establish correspondences between exo- and ego- views, guiding the trajectory transformation module to infer human full-body movement from the head trajectory. Meanwhile, we present an action description unit that maps the action semantics into the feature space consistent with the exocentric image. Finally, the inferred human movement and high-level action descriptions jointly guide the generation of exocentric motion and interaction content (i.e., corresponding optical flow and occlusion maps) in the backward process of the diffusion model, ultimately warping them into the corresponding exocentric video. We conduct extensive experiments on the relevant dataset with diverse exo-ego video pairs, and our IDE outperforms state-of-the-art models in both subjective and objective assessments, demonstrating its efficacy in ego-to-exo video generation.
- Abstract(参考訳): Ego-to-exoビデオ生成とは、エゴ中心のビデオに従って対応するエゴ中心のビデオを生成し、AR/VRおよび組み込みAIに有用なアプリケーションを提供する。
拡散モデル技術の進歩により、ビデオ生成において顕著な進歩が達成されている。
しかし、既存の手法は、隣接するフレーム間の時空間的整合性の仮定に基づいて構築されており、ビューの劇的な変化のため、エゴ・ツー・エクソのシナリオでは満足できない。
そこで本研究では,人間の動きと行動記述からなる行動意図を視点に依存しない表現として活用し,コンテンツと動きの一貫性を保ちながら映像生成をガイドする意図駆動型エゴ・ト・エクソビデオ生成フレームワーク(IDE)を提案する。
特に、エゴセントリックな頭部軌跡は、まずマルチビューステレオマッチングによって推定される。
そして、横断的な特徴知覚モジュールを導入し、エクソビューとエゴビューの対応を確立し、頭部から人間の全体の動きを推測する軌道変換モジュールを誘導する。
一方,アクションのセマンティクスを特徴空間にマッピングするアクション記述ユニットを提案する。
最後に、推定された人間の動きとハイレベルな行動記述は、拡散モデルの後方過程における外心運動と相互作用内容(すなわち、対応する光フローとオクルージョンマップ)の生成を共同でガイドし、最終的にそれらが対応する外心映像に圧倒される。
多様なエゴビデオペアによる関連するデータセットに関する広範な実験を行い、我々のIDEは、主観的および客観的な評価において最先端のモデルよりも優れており、エゴ・ツー・エゴビデオ生成におけるその効果を実証している。
関連論文リスト
- Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - Video Generation with Learned Action Prior [1.740992908651449]
カメラの動きが画像ピクセルと相互作用するので、カメラが動くプラットフォームにマウントされる場合、ビデオ生成は特に困難である。
既存の方法では、カメラのモーションダイナミクスを明示的にモデル化することなく、生のピクセルレベルの画像再構成に集中することで、この問題に対処するのが一般的である。
本稿では,観察された画像状態の一部としてカメラやアクションを考慮し,マルチAP学習フレームワーク内の画像状態とアクションの両方をモデル化する手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:00:07Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities
Using Web Instructional Videos [27.209391862016574]
本稿では,高密度ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。
我々は、エゴセントリックな視点で見るWebインストラクショナルビデオのモデルを、エゴセントリックな視点に適応させる。
論文 参考訳(メタデータ) (2023-11-28T02:51:13Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。