論文の概要: Neural Networks for Semantic Gaze Analysis in XR Settings
- arxiv url: http://arxiv.org/abs/2103.10451v1
- Date: Thu, 18 Mar 2021 18:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:38:50.421345
- Title: Neural Networks for Semantic Gaze Analysis in XR Settings
- Title(参考訳): xr設定における意味的視線分析のためのニューラルネットワーク
- Authors: Lena Stubbemann, Dominik D\"urrschnabel, Robert Refflinghaus
- Abstract要約: 本稿では,関心量の注釈に必要な時間と情報を最小化する新しい手法を提案する。
画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。
本手法は実環境および仮想環境で評価し,最先端の手法と競合できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual-reality (VR) and augmented-reality (AR) technology is increasingly
combined with eye-tracking. This combination broadens both fields and opens up
new areas of application, in which visual perception and related cognitive
processes can be studied in interactive but still well controlled settings.
However, performing a semantic gaze analysis of eye-tracking data from
interactive three-dimensional scenes is a resource-intense task, which so far
has been an obstacle to economic use. In this paper we present a novel approach
which minimizes time and information necessary to annotate volumes of interest
(VOIs) by using techniques from object recognition. To do so, we train
convolutional neural networks (CNNs) on synthetic data sets derived from
virtual models using image augmentation techniques. We evaluate our method in
real and virtual environments, showing that the method can compete with
state-of-the-art approaches, while not relying on additional markers or
preexisting databases but instead offering cross-platform use.
- Abstract(参考訳): vr(virtual-reality)と拡張現実(ar)技術は、アイトラッキングと組み合わさりつつある。
この組み合わせは両方の分野を広げ、視覚知覚と関連する認知過程を対話的でも十分に制御された環境で研究できる新しい応用領域を開く。
しかし,対話的3次元シーンからの視線追跡データの意味的視線分析は,これまでは経済利用の障害となっていた資源志向課題である。
本稿では,オブジェクト認識の手法を用いて,関心ボリューム(VOI)のアノテートに必要な時間と情報を最小化する手法を提案する。
そこで我々は,画像拡張手法を用いて,仮想モデルに基づく合成データセット上で畳み込みニューラルネットワーク(cnns)を訓練する。
提案手法は実環境および仮想環境で評価し,新たなマーカーや既存のデータベースを頼らずに,クロスプラットフォームでの利用が可能となることを示した。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Spatial Reasoning for Few-Shot Object Detection [21.3564383157159]
本稿では,空間的推論フレームワークを提案する。
グラフ畳み込みネットワークをRoIとその関連性はそれぞれノードとエッジとして定義する。
提案手法は最先端の手法を著しく上回り, 広範囲なアブレーション研究により有効性を検証する。
論文 参考訳(メタデータ) (2022-11-02T12:38:08Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - How Facial Features Convey Attention in Stationary Environments [0.0]
本研究は,視覚的特徴が認知と疲労の予測に最も寄与する要因を分析することによって,従来の注意欠陥検出研究を拡大することを目的とする。
被験者の視覚データを様々なレベルの注意度で分析するために,オープンソースの顔分析ツールキットOpenFaceを利用した。
論文 参考訳(メタデータ) (2021-11-29T20:11:57Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。