Fugu-MT 論文翻訳(概要): Aria-NeRF: Multimodal Egocentric View Synthesis

論文の概要: Aria-NeRF: Multimodal Egocentric View Synthesis

arxiv url: http://arxiv.org/abs/2311.06455v2
Date: Tue, 19 Mar 2024 02:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 00:11:07.797854
Title: Aria-NeRF: Multimodal Egocentric View Synthesis
Title（参考訳）: Aria-NeRF:マルチモーダル・エゴセントリック・ビュー・シンセサイザー
Authors: Jiankai Sun, Jianing Qiu, Chuanyang Zheng, John Tucker, Javier Yu, Mac Schwager,
Abstract要約: ニューラルラジアンス場(NeRFs)にインスパイアされた可変体積線トレーシングに基づく、エゴセントリックなデータから訓練されたリッチでマルチモーダルなシーンモデルの開発における研究の加速を目指す。このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計による気圧測定、GPSによる位置座標、デュアル周波数IMUデータセット(1kHzと800Hz)の情報を含む、総合的なセンサデータの収集を提供する。このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、より没入的でインテリジェントな体験を可能にするための堅牢な基盤となる。
参考スコア（独自算出の注目度）: 17.0554791846124
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We seek to accelerate research in developing rich, multimodal scene models trained from egocentric data, based on differentiable volumetric ray-tracing inspired by Neural Radiance Fields (NeRFs). The construction of a NeRF-like model from an egocentric image sequence plays a pivotal role in understanding human behavior and holds diverse applications within the realms of VR/AR. Such egocentric NeRF-like models may be used as realistic simulations, contributing significantly to the advancement of intelligent agents capable of executing tasks in the real-world. The future of egocentric view synthesis may lead to novel environment representations going beyond today's NeRFs by augmenting visual data with multimodal sensors such as IMU for egomotion tracking, audio sensors to capture surface texture and human language context, and eye-gaze trackers to infer human attention patterns in the scene. To support and facilitate the development and evaluation of egocentric multimodal scene modeling, we present a comprehensive multimodal egocentric video dataset. This dataset offers a comprehensive collection of sensory data, featuring RGB images, eye-tracking camera footage, audio recordings from a microphone, atmospheric pressure readings from a barometer, positional coordinates from GPS, connectivity details from Wi-Fi and Bluetooth, and information from dual-frequency IMU datasets (1kHz and 800Hz) paired with a magnetometer. The dataset was collected with the Meta Aria Glasses wearable device platform. The diverse data modalities and the real-world context captured within this dataset serve as a robust foundation for furthering our understanding of human behavior and enabling more immersive and intelligent experiences in the realms of VR, AR, and robotics.
Abstract（参考訳）: 我々は,Neural Radiance Fields (NeRFs) にインスパイアされた可変体積線トレーシングに基づいて,エゴセントリックなデータから学習したリッチでマルチモーダルなシーンモデルの開発を加速することを目指している。 Egocentric image sequenceからのNeRFライクなモデルの構築は、人間の行動を理解する上で重要な役割を担い、VR/ARの領域における多様な応用を担っている。このような自己中心型NeRFのようなモデルは現実的なシミュレーションとして利用でき、現実世界でタスクを実行する知的エージェントの進歩に大きく貢献する。 Egocentric view synthesisの将来は、現在のNeRFを超える新しい環境表現に繋がる可能性がある。例えば、移動追跡のためのIMU、表面テクスチャと人間の言語コンテキストをキャプチャするオーディオセンサー、シーンにおける人間の注意パターンを推測するアイ・ゲイズ・トラッカーなどである。エゴセントリック・マルチモーダル・シーン・モデリングの開発と評価を支援するため,包括的マルチモーダル・エゴセントリック・ビデオ・データセットを提案する。このデータセットは、RGB画像、アイトラッキングカメラの映像、マイクからの音声記録、気圧計からの気圧測定、GPSからの位置座標、Wi-FiとBluetoothの接続の詳細、デュアル周波数IMUデータセット(1kHzと800Hz)と磁気センサのペアによる情報を含む、総合的なセンサデータの収集を提供する。データセットはMeta Aria Glassesウェアラブルデバイスプラットフォームで収集された。このデータセットで捉えた多様なデータモダリティと現実世界のコンテキストは、人間の行動に対する理解を深め、VR、AR、ロボット工学の領域でより没入的でインテリジェントな体験を可能にする、堅牢な基盤となる。

関連論文リスト

MOSPA: Human Motion Generation Driven by Spatial Audio [56.735282455483954]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。 MOSPAと呼ばれるSPatial Audioによって駆動される人間の運動生成のための、シンプルで効果的な拡散に基づく生成フレームワークを開発する。トレーニングが完了すると、MOSPAは様々な空間的オーディオ入力に基づいて、多様なリアルな人間の動作を生成することができる。
論文参考訳（メタデータ） (2025-07-16T06:33:11Z)
Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
TartanGround: A Large-Scale Dataset for Ground Robot Perception and Navigation [19.488886693695946]
TartanGroundは、地上ロボットの認識と自律性を向上する大規模なマルチモーダルデータセットである。我々は70の環境にまたがって910の軌道を集め、150万のサンプルを得た。 TartanGroundは、幅広い学習ベースのタスクのトレーニングと評価のためのテストベッドとして機能する。
論文参考訳（メタデータ） (2025-05-15T20:35:06Z)
X-Capture: An Open-Source Portable Device for Multi-Sensory Learning [11.632896115888261]
我々は,X-Captureを紹介した。X-Captureは,実世界のマルチセンサーデータ収集のための,オープンソースでポータブルで費用対効果の高いデバイスである。 1000ドル以下のビルドコストで、X-Captureはマルチセンサーデータセットの作成を民主化する。 X-Captureは、AIにおける人間のような感覚表現の進化の基礎を成している。
論文参考訳（メタデータ） (2025-04-03T06:44:25Z)
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues [46.601134018876955]
本研究では,地球観測(EO)データに特化して設計された対話型アシスタントであるEarthDialを紹介する。 EarthDialはマルチスペクトル、マルチテンポラル、マルチ解像度の画像をサポートし、幅広いリモートセンシングタスクを可能にする。 44の下流データセットに対する実験結果から、EarthDialは既存のジェネリックモデルやドメイン固有モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-12-19T18:57:13Z)
GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文参考訳（メタデータ） (2024-12-15T14:21:19Z)
Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文参考訳（メタデータ） (2024-10-17T15:08:21Z)
RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文参考訳（メタデータ） (2024-08-28T03:17:40Z)
Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文参考訳（メタデータ） (2024-07-09T07:53:16Z)
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文参考訳（メタデータ） (2024-06-14T10:23:53Z)
LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文参考訳（メタデータ） (2024-02-27T03:08:44Z)
Headset: Human emotion awareness under partial occlusions multimodal dataset [19.57427512904342]
本稿では,没入型技術の発展を支援するため,新しいマルチモーダルデータベースを提案する。提案するデータベースは倫理的に適合する多種多様なボリュームデータを提供し、特に27人の参加者が発話中に表情や微妙な身体の動きを呈示し、11人の参加者がヘッドマウントディスプレイ(HMD)を着用している。このデータセットは、表情認識と再構成、顔の再現、ボリュームビデオなど、さまざまなXRアルゴリズムの評価とパフォーマンステストに役立てることができる。
論文参考訳（メタデータ） (2024-02-14T11:42:15Z)
MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2024-01-16T18:59:45Z)
ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。 TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文参考訳（メタデータ） (2020-07-09T17:33:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。