論文の概要: Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos
- arxiv url: http://arxiv.org/abs/2403.06351v1
- Date: Mon, 11 Mar 2024 01:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:40:05.147323
- Title: Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos
- Title(参考訳): 靴に身を置く:エゴセントリックなビデオからエゴセントリックな視点を持ち上げる
- Authors: Mi Luo, Zihui Xue, Alex Dimakis, Kristen Grauman
- Abstract要約: Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.46812056962567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate exocentric-to-egocentric cross-view translation, which aims to
generate a first-person (egocentric) view of an actor based on a video
recording that captures the actor from a third-person (exocentric) perspective.
To this end, we propose a generative framework called Exo2Ego that decouples
the translation process into two stages: high-level structure transformation,
which explicitly encourages cross-view correspondence between exocentric and
egocentric views, and a diffusion-based pixel-level hallucination, which
incorporates a hand layout prior to enhance the fidelity of the generated
egocentric view. To pave the way for future advancements in this field, we
curate a comprehensive exo-to-ego cross-view translation benchmark. It consists
of a diverse collection of synchronized ego-exo tabletop activity video pairs
sourced from three public datasets: H2O, Aria Pilot, and Assembly101. The
experimental results validate that Exo2Ego delivers photorealistic video
results with clear hand manipulation details and outperforms several baselines
in terms of both synthesis quality and generalization ability to new actions.
- Abstract(参考訳): 本研究では,三人称視点から俳優を捉えた映像記録に基づいて,俳優のファーストパーソン(エゴセントリック)ビューを生成することを目的とした,エクソセントリックからエゴセントリックへのクロスビュー翻訳について検討する。
そこで本研究では,エキソセントリックビューとエゴセントリックビューとのクロスビュー対応を明示的に奨励する高レベル構造変換と,生成したエゴセントリックビューの忠実度を高める前にハンドレイアウトを組み込んだ拡散ベースのピクセルレベルの幻覚の2段階に翻訳プロセスを分離するexo2egoという生成フレームワークを提案する。
この分野での今後の進歩への道を開くため、私たちは包括的なexo-to-egoクロスビュー翻訳ベンチマークをキュレーションします。
それらは、h2o、aria pilot、assembly101の3つのパブリックデータセットからソースされた、同期したego-exoテーブルトップアクティビティビデオペアの多様なコレクションで構成されている。
実験結果から,Exo2Egoは手操作の詳細が明確で,合成品質と一般化能力の両面で,いくつかのベースラインに優れていた。
関連論文リスト
- Exocentric To Egocentric Transfer For Action Recognition: A Short Survey [25.41820386246096]
エゴセントリックな視覚は、カメラ装着者の視点からシーンを捉えます。
外見中心の視覚はシーン全体のコンテキストを捉えます。
エゴとエクソビューの併用モデリングは、次世代AIエージェントの開発に不可欠である。
論文 参考訳(メタデータ) (2024-10-27T22:38:51Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - Intention-driven Ego-to-Exo Video Generation [16.942040396018736]
エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。
本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。
我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
論文 参考訳(メタデータ) (2024-03-14T09:07:31Z) - POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object
Interaction in the Multi-View World [59.545114016224254]
人間は、手と物体の相互作用の第三者による観察をエゴセントリックな視点に変換するのに長けている。
本稿では,自我中心の動画をほとんど持たない視点適応を実現するための,Prompt-Oriented View-Agnostic Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:54:44Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Enhancing Egocentric 3D Pose Estimation with Third Person Views [37.9683439632693]
本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。
実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
論文 参考訳(メタデータ) (2022-01-06T11:42:01Z) - Cross-View Exocentric to Egocentric Video Synthesis [18.575642755375107]
クロスビュービデオ合成タスクは、あるビューの動画シーケンスを、別のビューから劇的に異なるビューから生成することを目的としている。
本稿では,空間情報と時間情報の両方を学習するために,2方向の空間的時間的注意融合生成適応ネットワーク(STA-GAN)を提案する。
提案したSTA-GANは、時間枝、空間枝、注意融合の3つの部分から構成される。
論文 参考訳(メタデータ) (2021-07-07T10:00:52Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。