論文の概要: 4D Attention: Comprehensive Framework for Spatio-Temporal Gaze Mapping
- arxiv url: http://arxiv.org/abs/2107.03606v1
- Date: Thu, 8 Jul 2021 04:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:27:40.370436
- Title: 4D Attention: Comprehensive Framework for Spatio-Temporal Gaze Mapping
- Title(参考訳): 4次元注意:時空間注視マッピングのための総合的枠組み
- Authors: Shuji Oishi, Kenji Koide, Masashi Yokozuka, Atsuhiko Banno
- Abstract要約: 本研究では、視線追跡メガネを用いた視線時間領域における人間の注意を捉えるための枠組みを提案する。
直接視覚的局所化と慣性計測ユニット(IMU)の値の疎結合を利用して、ポーズを推定する。
本フレームワークに再構成部品を組み込むことにより,入力テクスチャに基づいて3次元環境に収まらない動的オブジェクトをインスタンス化する。
- 参考スコア(独自算出の注目度): 4.215251065887861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents a framework for capturing human attention in the
spatio-temporal domain using eye-tracking glasses. Attention mapping is a key
technology for human perceptual activity analysis or Human-Robot Interaction
(HRI) to support human visual cognition; however, measuring human attention in
dynamic environments is challenging owing to the difficulty in localizing the
subject and dealing with moving objects. To address this, we present a
comprehensive framework, 4D Attention, for unified gaze mapping onto static and
dynamic objects. Specifically, we estimate the glasses pose by leveraging a
loose coupling of direct visual localization and Inertial Measurement Unit
(IMU) values. Further, by installing reconstruction components into our
framework, dynamic objects not captured in the 3D environment map are
instantiated based on the input images. Finally, a scene rendering component
synthesizes a first-person view with identification (ID) textures and performs
direct 2D-3D gaze association. Quantitative evaluations showed the
effectiveness of our framework. Additionally, we demonstrated the applications
of 4D Attention through experiments in real situations.
- Abstract(参考訳): 本研究では、視線追跡メガネを用いた時空間領域における人間の注意を捉えるための枠組みを提案する。
アテンションマッピング(アテンションマッピング)は、人間の視覚認知を支援する人間の知覚行動分析または人間とロボットの相互作用(hri)にとって重要な技術である。
そこで我々は,静的および動的オブジェクトへの統一的視線マッピングのための包括的フレームワークである4d attentionを提案する。
具体的には、直接的視覚局在化と慣性測定ユニット(IMU)値の疎結合を利用してメガネのポーズを推定する。
さらに,本フレームワークに再構成部品を組み込むことで,入力画像に基づいて3次元環境マップに記録されていない動的オブジェクトをインスタンス化する。
最後に、シーンレンダリングコンポーネントは、識別(ID)テクスチャで一人称ビューを合成し、直接2D-3D視線アソシエーションを実行する。
定量的評価の結果,枠組みの有効性が示された。
さらに,実環境における実験による4次元注意の応用を実証した。
関連論文リスト
- Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Interaction-Driven Active 3D Reconstruction with Object Interiors [17.48872400701787]
本稿では,視覚認識,ロボットと物体の相互作用,および3Dスキャンを統合したアクティブな3次元再構成手法を提案する。
本手法は,RGBDセンサを内蔵したFetchロボットによって自動的に動作させる。
論文 参考訳(メタデータ) (2023-10-23T08:44:38Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。