Fugu-MT 論文翻訳(概要): Realtime Dynamic Gaze Target Tracking and Depth-Level Estimation

論文の概要: Realtime Dynamic Gaze Target Tracking and Depth-Level Estimation

arxiv url: http://arxiv.org/abs/2406.18595v1
Date: Sun, 9 Jun 2024 20:52:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 05:40:31.433762
Title: Realtime Dynamic Gaze Target Tracking and Depth-Level Estimation
Title（参考訳）: リアルタイム動注視目標追跡と深さレベル推定
Authors: Esmaeil Seraj, Harsh Bhate, Walter Talamonti,
Abstract要約: 車両のヘッドアップディスプレイ(HUD)のような様々な用途における透明ディスプレイ(TD)は、ユーザー体験に革命をもたらす可能性がある。このイノベーションは、リアルタイムのヒューマンデバイスインタラクション、特に動的に変化するTDに対するユーザの視線を正確に識別し追跡する上で、大きな課題を引き起こします。本研究では,(1)目視対象を特定し,動的に追跡する木に基づくアルゴリズム,(2)目視の深度レベルを目視追跡データから推定するマルチストリーム自己認識アーキテクチャからなる,リアルタイム目視監視のための2重頑健で効率的な体系的ソリューションを提案する。
参考スコア（独自算出の注目度）: 6.435984242701043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The integration of Transparent Displays (TD) in various applications, such as Heads-Up Displays (HUDs) in vehicles, is a burgeoning field, poised to revolutionize user experiences. However, this innovation brings forth significant challenges in realtime human-device interaction, particularly in accurately identifying and tracking a user's gaze on dynamically changing TDs. In this paper, we present a two-fold robust and efficient systematic solution for realtime gaze monitoring, comprised of: (1) a tree-based algorithm for identifying and dynamically tracking gaze targets (i.e., moving, size-changing, and overlapping 2D content) projected on a transparent display, in realtime; (2) a multi-stream self-attention architecture to estimate the depth-level of human gaze from eye tracking data, to account for the display's transparency and preventing undesired interactions with the TD. We collected a real-world eye-tracking dataset to train and test our gaze monitoring system. We present extensive results and ablation studies, including inference experiments on System on Chip (SoC) evaluation boards, demonstrating our model's scalability, precision, and realtime feasibility in both static and dynamic contexts. Our solution marks a significant stride in enhancing next-generation user-device interaction and experience, setting a new benchmark for algorithmic gaze monitoring technology in dynamic transparent displays.
Abstract（参考訳）: 車両におけるヘッドアップディスプレイ(HUD)など、さまざまな用途における透明ディスプレイ(TD)の統合は、ユーザエクスペリエンスに革命をもたらす、急成長する分野である。しかし、このイノベーションは、特に動的に変化するTDに対するユーザの視線を正確に識別し、追跡することにおいて、リアルタイムのヒューマンデバイスインタラクションにおいて重大な課題を引き起こします。本稿では,(1)透明ディスプレイに投影された視線ターゲット(移動,サイズ変更,重なり合う2Dコンテンツ)をリアルタイムに検出・追跡するツリーベースアルゴリズム,(2)目追跡データから人間の視線深度を推定するマルチストリーム自己認識アーキテクチャを用いて,ディスプレイの透明性を考慮し,TDとの望ましくない相互作用を防止する。私たちは、視線監視システムのトレーニングとテストを行うために、現実世界の視線追跡データセットを収集しました。本稿では,システム・オン・チップ (SoC) 評価ボード上での推論実験や,静的・動的両方の状況におけるモデルのスケーラビリティ,精度,リアルタイム実現可能性について述べる。弊社のソリューションは、次世代のユーザデバイスインタラクションとエクスペリエンスの向上に大きく貢献し、ダイナミック透明ディスプレイにおけるアルゴリズムによる視線監視技術のベンチマークを新たに設定した。

関連論文リスト

DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models [11.34839442803445]
道路利用者を対象とした多クラス協調検出・追跡フレームワークを提案する。まず,大域的空間注意融合(GSAF)モジュールを用いた検出器を提案する。次に,視覚基盤モデルを用いた視覚的セマンティクスを活用し,IDSW(ID SWitch)エラーを効果的に低減するトラックレットRe-IDentification(REID)モジュールを提案する。
論文参考訳（メタデータ） (2025-06-09T02:49:10Z)
Salient Object Detection in Traffic Scene through the TSOD10K Dataset [22.615252113004402]
Traffic Salient Object Detection (TSOD) は、セマンティック(衝突リスクなど)と視覚的サリエンスを組み合わせることで、安全を運転する上で重要なオブジェクトを分割することを目的としている。本研究は,インテリジェントトランスポートシステムにおける安全対応型サリエンシ分析の基盤を初めて確立するものである。
論文参考訳（メタデータ） (2025-03-21T07:21:24Z)
Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T10:30:40Z)
Quantifying the Impact of Motion on 2D Gaze Estimation in Real-World Mobile Interactions [18.294511216241805]
本稿では,ユーザの移動度と行動がモバイル視線追跡精度に与える影響を実証的に示す。頭部距離、頭部ポーズ、装置の向きは、正確性に影響を与える重要な要因である。発見は、より堅牢で適応的な視線追跡システムの必要性を強調している。
論文参考訳（メタデータ） (2025-02-14T21:44:52Z)
A Cross-Scene Benchmark for Open-World Drone Active Tracking [54.235808061746525]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。 DATと呼ばれるオープンワールドドローンアクティブトラッキングのためのクロスシーンクロスドメインベンチマークを提案する。また、R-VATと呼ばれる強化学習に基づくドローン追跡手法を提案する。
論文参考訳（メタデータ） (2024-12-01T09:37:46Z)
Comparing Optical Flow and Deep Learning to Enable Computationally Efficient Traffic Event Detection with Space-Filling Curves [0.6322312717516407]
我々は,OF(Optical Flow)とDL(Deep Learning)を比較し,前方の車載カメラからの映像データに対して,空間充填曲線による計算効率の高いイベント検出を行う。以上の結果から,OFアプローチは特異性に優れ,偽陽性を低減し,DLアプローチは優れた感度を示した。
論文参考訳（メタデータ） (2024-07-15T13:44:52Z)
LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。 LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文参考訳（メタデータ） (2024-01-03T18:57:27Z)
GADY: Unsupervised Anomaly Detection on Dynamic Graphs [18.1896489628884]
本稿では,従来の離散的手法の限界を突破する細粒度情報を取得するための連続的動的グラフモデルを提案する。第2の課題として、負の相互作用を生成するためにジェネレーティブ・アドバイサル・ネットワーク(Generative Adversarial Networks)を開拓した。提案したGADYは,3つの実世界のデータセットにおいて,従来の最先端手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2023-10-25T05:27:45Z)
Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文参考訳（メタデータ） (2023-09-15T09:18:54Z)
Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文参考訳（メタデータ） (2023-07-02T21:14:49Z)
MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-06-05T04:24:11Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
RGB-D Railway Platform Monitoring and Scene Understanding for Enhanced Passenger Safety [3.4298729855744026]
本稿では,人間を地上平面上で検出し追跡するための柔軟な解析手法を提案する。我々は、RGBと深度に基づく検出と追跡の複数の組み合わせについて検討する。その結果,奥行きに基づく空間情報と学習表現の組み合わせにより,検出精度と追跡精度が大幅に向上した。
論文参考訳（メタデータ） (2021-02-23T14:44:34Z)
Training-free Monocular 3D Event Detection System for Traffic Surveillance [93.65240041833319]
既存のイベント検出システムは、主に学習ベースであり、大量のトレーニングデータが利用可能な場合、十分なパフォーマンスを実現している。現実のシナリオでは、十分なラベル付きトレーニングデータの収集は高価であり、時には不可能である。本稿では,交通監視のためのトレーニング不要な単眼3Dイベント検出システムを提案する。
論文参考訳（メタデータ） (2020-02-01T04:42:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。