論文の概要: Real-time Cross-modal Cybersickness Prediction in Virtual Reality
- arxiv url: http://arxiv.org/abs/2501.01212v1
- Date: Thu, 02 Jan 2025 11:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:32.230623
- Title: Real-time Cross-modal Cybersickness Prediction in Virtual Reality
- Title(参考訳): バーチャルリアリティにおけるリアルタイムクロスモーダルサイバーシック予測
- Authors: Yitong Zhu, Tangyao Li, Yuyang Wang,
- Abstract要約: サイバーシックネスは、没入型バーチャルリアリティ(VR)体験の普及にとって重要な障壁であり続けている。
本稿では,生体信号の特徴を処理する軽量モデルと,映像特徴抽出のためのPP-TSNネットワークを提案する。
本モデルは,眼・頭部追跡データ,生理的データ,VR映像を含む公開データセットを用いて,サイバーシックネス予測の最先端性能を実証した。
- 参考スコア(独自算出の注目度): 2.865152517440773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cybersickness remains a significant barrier to the widespread adoption of immersive virtual reality (VR) experiences, as it can greatly disrupt user engagement and comfort. Research has shown that cybersickness can significantly be reflected in head and eye tracking data, along with other physiological data (e.g., TMP, EDA, and BMP). Despite the application of deep learning techniques such as CNNs and LSTMs, these models often struggle to capture the complex interactions between multiple data modalities and lack the capacity for real-time inference, limiting their practical application. Addressing this gap, we propose a lightweight model that leverages a transformer-based encoder with sparse self-attention to process bio-signal features and a PP-TSN network for video feature extraction. These features are then integrated via a cross-modal fusion module, creating a video-aware bio-signal representation that supports cybersickness prediction based on both visual and bio-signal inputs. Our model, trained with a lightweight framework, was validated on a public dataset containing eye and head tracking data, physiological data, and VR video, and demonstrated state-of-the-art performance in cybersickness prediction, achieving a high accuracy of 93.13\% using only VR video inputs. These findings suggest that our approach not only enables effective, real-time cybersickness prediction but also addresses the longstanding issue of modality interaction in VR environments. This advancement provides a foundation for future research on multimodal data integration in VR, potentially leading to more personalized, comfortable and widely accessible VR experiences.
- Abstract(参考訳): サイバーシックネスは、没入型バーチャルリアリティ(VR)体験の普及にとって重要な障壁であり、ユーザーのエンゲージメントと快適さを著しく損なう可能性がある。
研究によると、サイバーシック性は他の生理的データ(例えば、TMP、EDA、BMP)とともに、頭と目の追跡データに顕著に反映できる。
CNNやLSTMといったディープラーニング技術の適用にもかかわらず、これらのモデルは複数のデータモダリティ間の複雑な相互作用を捉えるのに苦労し、リアルタイム推論の能力に欠け、実用的な応用を制限している。
このギャップに対処するため,トランスフォーマーをベースとした低アテンションのエンコーダを用いて生体信号の処理を行う軽量モデルと,映像特徴抽出のためのPP-TSNネットワークを提案する。
これらの機能は、クロスモーダル融合モジュールを通じて統合され、視覚的および生体信号入力の両方に基づいてサイバーシックネス予測をサポートする、ビデオ対応のバイオ信号表現を生成する。
本モデルは,視線と頭部追跡データ,生理的データ,VR映像を含む公開データセットを用いて,サイバーシックネス予測における最先端性能を実証し,VR映像入力のみを用いて93.13\%の精度を達成した。
これらの結果から,本手法は実時間サイバーシックネス予測を可能にするだけでなく,VR環境における長年にわたるモダリティインタラクションの問題にも対処できる可能性が示唆された。
この進歩は、将来のVRにおけるマルチモーダルデータ統合の研究の基礎となり、よりパーソナライズされ、快適で、広くアクセス可能なVR体験につながる可能性がある。
関連論文リスト
- DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer [62.18680935878919]
レンダリングを時間的に一貫した出力に変換するオンライン生成拡張フレームワークであるDiffusionHarmonizerを紹介した。
コアとなるのは、単一のGPU上でオンラインシミュレータで実行可能な、一段階の時間的条件付きエンハンサーである。
論文 参考訳(メタデータ) (2026-02-27T15:35:30Z) - Gaze Prediction in Virtual Reality Without Eye Tracking Using Visual and Head Motion Cues [3.4383905541567583]
本稿では,HMD(Head-Mounted Display)モーション信号と映像フレームから派生した視覚的サリエンシキューを組み合わせた新しい視線予測フレームワークを提案する。
本手法では,軽量な唾液エンコーダであるUniSalを用いて視覚的特徴を抽出し,その特徴をHMDモーションデータと融合させて時系列予測モジュールで処理する。
EHTaskデータセットの実験は、商用VRハードウェアへの展開とともに、私たちのアプローチがCenter-of-HMDやMean Gazeといったベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-26T11:26:27Z) - REFA: Real-time Egocentric Facial Animations for Virtual Reality [56.82169742343143]
バーチャルリアリティー(VR)ヘッドセットに埋め込まれた赤外線カメラのセットから得られたエゴセントリックなビューを用いて,表情をリアルタイムに追跡するシステムを提案する。
我々の技術は、仮想キャラクタの表情を非侵襲的に正確に駆動するのに役立つ。
論文 参考訳(メタデータ) (2026-01-07T01:41:46Z) - Predicting User Grasp Intentions in Virtual Reality [0.0]
対象の種類,サイズ,操作の異なる810の試験において,分類と回帰のアプローチを評価した。
回帰ベースのアプローチはより堅牢なパフォーマンスを示し、タイミングエラーは0.25秒以内、距離エラーは5~20cm程度である。
私たちの結果は、VRインタラクションを強化する機械学習モデルの可能性を強調します。
論文 参考訳(メタデータ) (2025-08-05T15:17:19Z) - Securing Virtual Reality Experiences: Unveiling and Tackling Cybersickness Attacks with Explainable AI [2.076342899890871]
我々は、サイバーシックネス攻撃(サイバーシックネス攻撃)と呼ばれる新しいタイプのVR攻撃を提示し、サイバーシックネス緩和の引き金となる。
本稿では,この攻撃を検出するための,XAI誘導型サイバーシック攻撃検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:49:51Z) - ZIA: A Theoretical Framework for Zero-Input AI [0.0]
Zero-Input AI(ZIA)は、明示的なユーザコマンドを使わずに、積極的な意図予測を可能にすることによって、人間とコンピュータのインタラクションのための新しいフレームワークを導入している。
リアルタイム推論のためのマルチモーダルモデルに、視線追跡、バイオシグナル(EEG、心拍数)、コンテキストデータ(時間、位置、使用履歴)を統合する。
ZIAは、アクセシビリティ、ヘルスケア、消費者アプリケーションのためのスケーラブルでプライバシ保護フレームワークを提供し、AIを予測知性に向けて前進させる。
論文 参考訳(メタデータ) (2025-02-22T07:42:05Z) - Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos [44.50599475213118]
我々は、複雑な人間のパフォーマンスをリアルタイムかつ高忠実に再生するための、textitDualGSと呼ばれる新しいアプローチを提案する。
提案手法は最大120倍の圧縮比を実現し,フレームあたり約350KBのストレージを必要とする。
我々は、VRヘッドセット上で写真リアルで自由視点体験を通して、表現の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-12T18:33:13Z) - Mazed and Confused: A Dataset of Cybersickness, Working Memory, Mental Load, Physical Load, and Attention During a Real Walking Task in VR [11.021668923244803]
認知活動、身体活動、およびサイバーシックネスの親しみやすい感情との関係はよく理解されていない。
頭部の向き,頭部の位置,視線追跡,画像,外部センサーからの生理的読影,自己報告されたサイバーシック度,身体負荷,心的負荷をVRで収集した。
論文 参考訳(メタデータ) (2024-09-10T22:41:14Z) - Cybersickness Detection through Head Movement Patterns: A Promising
Approach [1.1562071835482226]
本研究では,サイバーシック検出のための新しい生理指標としての頭部運動パターンについて検討する。
頭部の動きは、あらゆる商用VRヘッドセットに埋め込まれたセンサーを通して簡単に捉えられる、連続的で非侵襲的な測定手段を提供する。
論文 参考訳(メタデータ) (2024-02-05T04:49:59Z) - Deep Motion Masking for Secure, Usable, and Scalable Real-Time Anonymization of Virtual Reality Motion Data [49.68609500290361]
最近の研究では、ほぼすべてのVRアプリケーションで使われているモーショントラッキングの「テレメトリ」データが、指紋スキャンと同じくらいに識別可能であることが示されている。
本稿では、既知の防御対策を確実に回避できる最先端のVR識別モデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T01:34:22Z) - LiteVR: Interpretable and Lightweight Cybersickness Detection using
Explainable AI [1.1470070927586016]
サイバーシックネス(Cybersickness)は、仮想現実(VR)ユーザーエクスペリエンスに関連する一般的な障害である。
我々はサイバーシック検出のための説明可能な人工知能(XAI)ベースのフレームワーク LiteVR を提案する。
論文 参考訳(メタデータ) (2023-02-05T21:51:12Z) - VR-LENS: Super Learning-based Cybersickness Detection and Explainable
AI-Guided Deployment in Virtual Reality [1.9642496463491053]
本研究は、サイバーシック検出MLモデルを開発するための、説明可能な人工知能(XAI)ベースのフレームワークであるVR-LENSを提案する。
我々はまず,サイバーシック検出のための新しいスーパーラーニングベースのアンサンブルMLモデルを開発した。
本手法は, 眼球運動, プレイヤー位置, ガルバニックスキン/ハートレート応答を, 統合センサ, ゲームプレイ, 生体生理学的データセットの最も重要な特徴として同定した。
論文 参考訳(メタデータ) (2023-02-03T20:15:51Z) - Force-Aware Interface via Electromyography for Natural VR/AR Interaction [69.1332992637271]
我々はVR/ARにおける自然的および直感的な力入力のための学習ベースのニューラルネットワークを設計する。
我々は,3.3%の平均誤差で指の力量をリアルタイムでデコードし,キャリブレーションの少ない新規ユーザに一般化できることを実証した。
今後のVR/ARにおける、より現実的な物理性に向けた研究を進めるために、我々の研究成果を期待する。
論文 参考訳(メタデータ) (2022-10-03T20:51:25Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - TruVR: Trustworthy Cybersickness Detection using Explainable Machine
Learning [1.9642496463491053]
サイバーシックネスは、バーチャルリアリティ(VR)システムを使用する際に、吐き気、めまい、頭痛、目の緊張、その他の不快感によって特徴づけられる。
以前報告された機械学習(ML)とディープラーニング(DL)アルゴリズムは、ブラックボックスモデルを使用してVRサイバーシックの検出(分類)と予測(回帰)を行う。
サイバーシックを検知し,予測するための3つの説明可能な機械学習モデルを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:55:13Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。