Fugu-MT 論文翻訳(概要): Intention-driven Ego-to-Exo Video Generation

論文の概要: Intention-driven Ego-to-Exo Video Generation

arxiv url: http://arxiv.org/abs/2403.09194v1
Date: Thu, 14 Mar 2024 09:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 21:16:56.398944
Title: Intention-driven Ego-to-Exo Video Generation
Title（参考訳）: 意図駆動型エゴ・ツー・エクソビデオ生成
Authors: Hongchen Luo, Kai Zhu, Wei Zhai, Yang Cao,
Abstract要約: エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
参考スコア（独自算出の注目度）: 16.942040396018736
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ego-to-exo video generation refers to generating the corresponding exocentric video according to the egocentric video, providing valuable applications in AR/VR and embodied AI. Benefiting from advancements in diffusion model techniques, notable progress has been achieved in video generation. However, existing methods build upon the spatiotemporal consistency assumptions between adjacent frames, which cannot be satisfied in the ego-to-exo scenarios due to drastic changes in views. To this end, this paper proposes an Intention-Driven Ego-to-exo video generation framework (IDE) that leverages action intention consisting of human movement and action description as view-independent representation to guide video generation, preserving the consistency of content and motion. Specifically, the egocentric head trajectory is first estimated through multi-view stereo matching. Then, cross-view feature perception module is introduced to establish correspondences between exo- and ego- views, guiding the trajectory transformation module to infer human full-body movement from the head trajectory. Meanwhile, we present an action description unit that maps the action semantics into the feature space consistent with the exocentric image. Finally, the inferred human movement and high-level action descriptions jointly guide the generation of exocentric motion and interaction content (i.e., corresponding optical flow and occlusion maps) in the backward process of the diffusion model, ultimately warping them into the corresponding exocentric video. We conduct extensive experiments on the relevant dataset with diverse exo-ego video pairs, and our IDE outperforms state-of-the-art models in both subjective and objective assessments, demonstrating its efficacy in ego-to-exo video generation.
Abstract（参考訳）: Ego-to-exoビデオ生成とは、エゴ中心のビデオに従って対応するエゴ中心のビデオを生成し、AR/VRおよび組み込みAIに有用なアプリケーションを提供する。拡散モデル技術の進歩により、ビデオ生成において顕著な進歩が達成されている。しかし、既存の手法は、隣接するフレーム間の時空間的整合性の仮定に基づいて構築されており、ビューの劇的な変化のため、エゴ・ツー・エクソのシナリオでは満足できない。そこで本研究では,人間の動きと行動記述からなる行動意図を視点に依存しない表現として活用し,コンテンツと動きの一貫性を保ちながら映像生成をガイドする意図駆動型エゴ・ト・エクソビデオ生成フレームワーク(IDE)を提案する。特に、エゴセントリックな頭部軌跡は、まずマルチビューステレオマッチングによって推定される。そして、横断的な特徴知覚モジュールを導入し、エクソビューとエゴビューの対応を確立し、頭部から人間の全体の動きを推測する軌道変換モジュールを誘導する。一方,アクションのセマンティクスを特徴空間にマッピングするアクション記述ユニットを提案する。最後に、推定された人間の動きとハイレベルな行動記述は、拡散モデルの後方過程における外心運動と相互作用内容(すなわち、対応する光フローとオクルージョンマップ)の生成を共同でガイドし、最終的にそれらが対応する外心映像に圧倒される。多様なエゴビデオペアによる関連するデータセットに関する広範な実験を行い、我々のIDEは、主観的および客観的な評価において最先端のモデルよりも優れており、エゴ・ツー・エゴビデオ生成におけるその効果を実証している。

関連論文リスト

UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation [21.70816226149573]
本稿では、シーン認識動作合成に一対一のイメージを利用する2つの新しいタスクである、エゴセントリックモーション生成とエゴセントリックモーション予測を紹介する。我々は,エゴセントリックデバイスに適した新しい頭部中心運動表現を備えた統一された条件付き運動拡散モデルUniEgoMotionを提案する。 UniEgoMotionは、自我中心の運動再構成において最先端のパフォーマンスを達成し、単一の自我中心の画像から動きを初めて生成する。
論文参考訳（メタデータ） (2025-08-02T00:41:20Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-03T05:04:29Z)
EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos [49.24266108952835]
エゴ中心の動画、対応するエゴ中心のビデオの最初のフレーム、テキストによる指示が与えられたら、エゴ中心のビデオの未来的なフレームを生成することが目的である。 EgoExo-Genは、クロスビュービデオ予測のための手動オブジェクトのダイナミクスを明示的にモデル化する。
論文参考訳（メタデータ） (2025-04-16T03:12:39Z)
Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations [47.04855334955006]
本稿では,因果的時間的ダイナミクスと相互視的アライメントを促進するマスク付きエゴエクソモデリングを提案する。我々は、堅牢なクロスビュー理解の基礎として、人間の行動の構成的性質を捉えることの重要性を強調した。
論文参考訳（メタデータ） (2025-03-25T14:33:32Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities [7.952665773362793]
我々は,エゴセントリックな視点の相補的な性質を活用し,LVLMのエゴセントリックなADLビデオに対する理解を高めることを目的としている。このアプローチは効果的だが、大規模な収集には実用的ではないペア付きエゴエクソビデオが必要である。合成データに基づいて訓練されたLVLMのエゴ表現を強化するため,我々はドメイン・ア・ブートストラップ付きego2exogstic戦略を開発した。
論文参考訳（メタデータ） (2025-01-10T05:01:58Z)
Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文参考訳（メタデータ） (2024-08-07T06:10:45Z)
Video Generation with Learned Action Prior [1.740992908651449]
カメラの動きが画像ピクセルと相互作用するので、カメラが動くプラットフォームにマウントされる場合、ビデオ生成は特に困難である。既存の方法では、カメラのモーションダイナミクスを明示的にモデル化することなく、生のピクセルレベルの画像再構成に集中することで、この問題に対処するのが一般的である。本稿では,観察された画像状態の一部としてカメラやアクションを考慮し,マルチAP学習フレームワーク内の画像状態とアクションの両方をモデル化する手法を提案する。
論文参考訳（メタデータ） (2024-06-20T16:00:07Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
Put Myself in Your Shoes: Lifting the Egocentric Perspective from Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-11T01:00:00Z)
Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文参考訳（メタデータ） (2024-01-01T15:31:06Z)
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos [27.209391862016574]
本稿では,高密度ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。我々は、エゴセントリックな視点で見るWebインストラクショナルビデオのモデルを、エゴセントリックな視点に適応させる。
論文参考訳（メタデータ） (2023-11-28T02:51:13Z)
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-08T19:54:08Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。