論文の概要: Real Time Egocentric Segmentation for Video-self Avatar in Mixed Reality
- arxiv url: http://arxiv.org/abs/2207.01296v1
- Date: Mon, 4 Jul 2022 10:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:16:16.263857
- Title: Real Time Egocentric Segmentation for Video-self Avatar in Mixed Reality
- Title(参考訳): 複合現実感におけるビデオ自己アバターのリアルタイムエゴセントリックセグメンテーション
- Authors: Ester Gonzalez-Sosa, Andrija Gajic, Diego Gonzalez-Morin, Guillermo
Robledo, Pablo Perez and Alvaro Villegas
- Abstract要約: 提案アルゴリズムは,Thundernetのアーキテクチャにインスパイアされた浅いネットワークにより,66fpsのフレームレートで640x480の入力解像度を実現している。
3つのデータセットから約10,000の画像で構成されたEgocentric Bodiesデータセットの作成プロセスについて述べる。
- 参考スコア(独自算出の注目度): 0.946046736912201
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work we present our real-time egocentric body segmentation algorithm.
Our algorithm achieves a frame rate of 66 fps for an input resolution of
640x480, thanks to our shallow network inspired in Thundernet's architecture.
Besides, we put a strong emphasis on the variability of the training data. More
concretely, we describe the creation process of our Egocentric Bodies
(EgoBodies) dataset, composed of almost 10,000 images from three datasets,
created both from synthetic methods and real capturing. We conduct experiments
to understand the contribution of the individual datasets; compare Thundernet
model trained with EgoBodies with simpler and more complex previous approaches
and discuss their corresponding performance in a real-life setup in terms of
segmentation quality and inference times. The described trained semantic
segmentation algorithm is already integrated in an end-to-end system for Mixed
Reality (MR), making it possible for users to see his/her own body while being
immersed in a MR scene.
- Abstract(参考訳): 本研究では,実時間自己中心体セグメンテーションアルゴリズムを提案する。
提案アルゴリズムは,Thundernetのアーキテクチャにインスパイアされた浅いネットワークにより,66fpsのフレームレートで640x480の入力解像度を実現する。
さらに、トレーニングデータの多様性にも強く重点を置いています。
より具体的には、3つのデータセットから約10,000の画像で構成され、合成方法と実際のキャプチャの両方から生成されるEgocentric Bodies(EgoBodies)データセットの作成プロセスについて説明する。
我々は、個々のデータセットのコントリビューションを理解するために実験を行い、EgoBodiesで訓練されたThundernetモデルと、よりシンプルで複雑な以前のアプローチを比較し、セグメンテーションの品質と推論時間の観点から、実生活におけるそれらのパフォーマンスについて議論する。
訓練された意味セマンティクスセグメンテーションアルゴリズムは、mr(mixed reality)のエンド・ツー・エンドシステムにすでに組み込まれているので、ユーザーはmrシーンに没入しながら自分の身体を見ることができる。
関連論文リスト
- X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - Full Body Video-Based Self-Avatars for Mixed Reality: from E2E System to
User Study [1.0149624140985476]
この研究は、Mixed Reality(MR)アプリケーションにおけるビデオパススルーによるセルフアバターの作成について検討する。
商用ヘッドマウントディスプレイ(HMD)のMRビデオパススルー実装を含むエンド・ツー・エンドシステムを提案する。
この技術を検証するために、私たちは没入型VR体験を設計しました。
論文 参考訳(メタデータ) (2022-08-24T20:59:17Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z) - Learning to simulate complex scenes [18.51564016785853]
本稿では,意味的セグメンテーションの文脈におけるコンテンツ適応について考察する。
本稿では、属性値の最適化と、実世界のデータと類似したコンテンツのトレーニングセットを得るために、スケーラブルな離散化・緩和(SDR)アプローチを提案する。
実験により,本システムは合理的かつ有用なシーンを生成でき,そこから有望な実世界のセグメンテーション精度を得ることができた。
論文 参考訳(メタデータ) (2020-06-25T17:51:34Z) - Egocentric Human Segmentation for Mixed Reality [1.0149624140985476]
我々は15万以上のリアルな画像からなる半合成データセットを作成する。
リアルタイムな要求を超越して実行が可能なディープラーニングセマンティックセマンティックセマンティクスアルゴリズムを実装した。
論文 参考訳(メタデータ) (2020-05-25T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。