論文の概要: Aria-NeRF: Multimodal Egocentric View Synthesis
- arxiv url: http://arxiv.org/abs/2311.06455v2
- Date: Tue, 19 Mar 2024 02:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 00:11:07.797854
- Title: Aria-NeRF: Multimodal Egocentric View Synthesis
- Title(参考訳): Aria-NeRF:マルチモーダル・エゴセントリック・ビュー・シンセサイザー
- Authors: Jiankai Sun, Jianing Qiu, Chuanyang Zheng, John Tucker, Javier Yu, Mac Schwager,
- Abstract要約: ニューラルラジアンス場(NeRFs)にインスパイアされた可変体積線トレーシングに基づく、エゴセントリックなデータから訓練されたリッチでマルチモーダルなシーンモデルの開発における研究の加速を目指す。
このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計による気圧測定、GPSによる位置座標、デュアル周波数IMUデータセット(1kHzと800Hz)の情報を含む、総合的なセンサデータの収集を提供する。
このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、より没入的でインテリジェントな体験を可能にするための堅牢な基盤となる。
- 参考スコア(独自算出の注目度): 17.0554791846124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We seek to accelerate research in developing rich, multimodal scene models trained from egocentric data, based on differentiable volumetric ray-tracing inspired by Neural Radiance Fields (NeRFs). The construction of a NeRF-like model from an egocentric image sequence plays a pivotal role in understanding human behavior and holds diverse applications within the realms of VR/AR. Such egocentric NeRF-like models may be used as realistic simulations, contributing significantly to the advancement of intelligent agents capable of executing tasks in the real-world. The future of egocentric view synthesis may lead to novel environment representations going beyond today's NeRFs by augmenting visual data with multimodal sensors such as IMU for egomotion tracking, audio sensors to capture surface texture and human language context, and eye-gaze trackers to infer human attention patterns in the scene. To support and facilitate the development and evaluation of egocentric multimodal scene modeling, we present a comprehensive multimodal egocentric video dataset. This dataset offers a comprehensive collection of sensory data, featuring RGB images, eye-tracking camera footage, audio recordings from a microphone, atmospheric pressure readings from a barometer, positional coordinates from GPS, connectivity details from Wi-Fi and Bluetooth, and information from dual-frequency IMU datasets (1kHz and 800Hz) paired with a magnetometer. The dataset was collected with the Meta Aria Glasses wearable device platform. The diverse data modalities and the real-world context captured within this dataset serve as a robust foundation for furthering our understanding of human behavior and enabling more immersive and intelligent experiences in the realms of VR, AR, and robotics.
- Abstract(参考訳): 我々は,Neural Radiance Fields (NeRFs) にインスパイアされた可変体積線トレーシングに基づいて,エゴセントリックなデータから学習したリッチでマルチモーダルなシーンモデルの開発を加速することを目指している。
Egocentric image sequenceからのNeRFライクなモデルの構築は、人間の行動を理解する上で重要な役割を担い、VR/ARの領域における多様な応用を担っている。
このような自己中心型NeRFのようなモデルは現実的なシミュレーションとして利用でき、現実世界でタスクを実行する知的エージェントの進歩に大きく貢献する。
Egocentric view synthesisの将来は、現在のNeRFを超える新しい環境表現に繋がる可能性がある。例えば、移動追跡のためのIMU、表面テクスチャと人間の言語コンテキストをキャプチャするオーディオセンサー、シーンにおける人間の注意パターンを推測するアイ・ゲイズ・トラッカーなどである。
エゴセントリック・マルチモーダル・シーン・モデリングの開発と評価を支援するため,包括的マルチモーダル・エゴセントリック・ビデオ・データセットを提案する。
このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計からの気圧測定、GPSからの位置座標、Wi-FiとBluetoothの接続の詳細、デュアル周波数IMUデータセット(1kHzと800Hz)と磁気センサのペアによる情報を含む、総合的なセンサデータの収集を提供する。
データセットはMeta Aria Glassesウェアラブルデバイスプラットフォームで収集された。
このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、VR、AR、ロボット工学の領域でより没入的でインテリジェントな体験を可能にする、堅牢な基盤となる。
関連論文リスト
- Real-time Cross-modal Cybersickness Prediction in Virtual Reality [2.865152517440773]
サイバーシックネスは、没入型バーチャルリアリティ(VR)体験の普及にとって重要な障壁であり続けている。
本稿では,生体信号の特徴を処理する軽量モデルと,映像特徴抽出のためのPP-TSNネットワークを提案する。
本モデルは,眼・頭部追跡データ,生理的データ,VR映像を含む公開データセットを用いて,サイバーシックネス予測の最先端性能を実証した。
論文 参考訳(メタデータ) (2025-01-02T11:41:43Z) - GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。
参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。
私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文 参考訳(メタデータ) (2024-12-15T14:21:19Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Headset: Human emotion awareness under partial occlusions multimodal
dataset [19.57427512904342]
本稿では,没入型技術の発展を支援するため,新しいマルチモーダルデータベースを提案する。
提案するデータベースは倫理的に適合する多種多様なボリュームデータを提供し、特に27人の参加者が発話中に表情や微妙な身体の動きを呈示し、11人の参加者がヘッドマウントディスプレイ(HMD)を着用している。
このデータセットは、表情認識と再構成、顔の再現、ボリュームビデオなど、さまざまなXRアルゴリズムの評価とパフォーマンステストに役立てることができる。
論文 参考訳(メタデータ) (2024-02-14T11:42:15Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。