論文の概要: RGBD Gaze Tracking Using Transformer for Feature Fusion
- arxiv url: http://arxiv.org/abs/2510.06298v1
- Date: Tue, 07 Oct 2025 14:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.10861
- Title: RGBD Gaze Tracking Using Transformer for Feature Fusion
- Title(参考訳): 変圧器を用いた特徴融合のためのRGBD視線追跡
- Authors: Tobias J. Bauer,
- Abstract要約: この論文は、RGBD画像に色(RGB)情報と深度(D)情報の両方を含むAIベースのGaze Trackingシステムの実装である。
さまざまなモデル構成をトレーニングし、検証し、合計3つのデータセットで評価する。
訓練されたモデルは、リアルタイムパイプラインで、視線方向とコンピュータ画面の前にいる人の視線点を推定するために使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Subject of this thesis is the implementation of an AI-based Gaze Tracking system using RGBD images that contain both color (RGB) and depth (D) information. To fuse the features extracted from the images, a module based on the Transformer architecture is used. The combination of RGBD input images and Transformers was chosen because it has not yet been investigated. Furthermore, a new dataset is created for training the AI models as existing datasets either do not contain depth information or only contain labels for Gaze Point Estimation that are not suitable for the task of Gaze Angle Estimation. Various model configurations are trained, validated and evaluated on a total of three different datasets. The trained models are then to be used in a real-time pipeline to estimate the gaze direction and thus the gaze point of a person in front of a computer screen. The AI model architecture used in this thesis is based on an earlier work by Lian et al. It uses a Generative Adversarial Network (GAN) to simultaneously remove depth map artifacts and extract head pose features. Lian et al. achieve a mean Euclidean error of 38.7mm on their own dataset ShanghaiTechGaze+. In this thesis, a model architecture with a Transformer module for feature fusion achieves a mean Euclidean error of 55.3mm on the same dataset, but we show that using no pre-trained GAN module leads to a mean Euclidean error of 30.1mm. Replacing the Transformer module with a Multilayer Perceptron (MLP) improves the error to 26.9mm. These results are coherent with the ones on the other two datasets. On the ETH-XGaze dataset, the model with Transformer module achieves a mean angular error of 3.59{\deg} and without Transformer module 3.26{\deg}, whereas the fundamentally different model architecture used by the dataset authors Zhang et al. achieves a mean angular error of 2.04{\deg}. On the OTH-Gaze-Estimation dataset created for...
- Abstract(参考訳): この論文の主題は、RGBD画像に色(RGB)情報と深度(D)情報の両方を含むAIベースのGaze Trackingシステムの実装である。
画像から抽出した特徴を融合するために、Transformerアーキテクチャに基づいたモジュールを使用する。
RGBD入力画像とトランスフォーマーの組み合わせは、まだ検討されていないため選択された。
さらに、AIモデルをトレーニングするための新しいデータセットが作成され、既存のデータセットは深度情報を含んでいないか、迷路角推定のタスクに適さない迷路点推定用のラベルのみを含んでいる。
さまざまなモデル構成をトレーニングし、検証し、合計3つのデータセットで評価する。
訓練されたモデルは、リアルタイムパイプラインで、視線方向とコンピュータ画面の前にいる人の視線点を推定するために使用される。
この論文で使用されるAIモデルアーキテクチャは、Lianらによる以前の研究に基づいており、GAN(Generative Adversarial Network)を使用して、深度マップのアーティファクトを同時に削除し、ヘッドポーズの特徴を抽出する。
Lianらは自身のデータセットShanghaiTechGaze+で平均ユークリッド誤差38.7mmを達成した。
本論文では,トランスフォーマーモジュールを用いたモデルアーキテクチャにより,同じデータセット上での平均ユークリッド誤差が55.3mmとなるが,事前学習したGANモジュールを使用せずに,平均ユークリッド誤差が30.1mmとなることを示す。
TransformerモジュールをMultilayer Perceptron (MLP)で置き換えると、エラーは26.9mmに改善される。
これらの結果は、他の2つのデータセットのものと一致している。
ETH-XGazeデータセットでは、Transformerモジュールを用いたモデルでは平均角誤差は3.59{\degで、Transformerモジュールは3.26{\degではない。
OTH-Gaze-Estimationデータセットについて
関連論文リスト
- From Editor to Dense Geometry Estimator [77.21804448599009]
密度幾何予測のための拡散変換器(DiT)アーキテクチャに基づく高度な編集モデルを適用するフレームワークである textbfFE2E を紹介する。
FE2EはETH3Dデータセットで35%以上のパフォーマンス向上を実現し、100$times$データでトレーニングされたDepthAnythingシリーズを上回っている。
論文 参考訳(メタデータ) (2025-09-04T15:58:50Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [112.40071212468843]
3D Gaussian Splatting (3DGS)は多くの視覚タスクにおいて3D表現の事実上の方法となっている。
一般的なShapeNet, ModelNet, averseを用いて3DGSの大規模データセットを構築した。
本稿では,ガウスパラメータからの表現学習の独特な利点を浮き彫りにしたガウスMAEを紹介する。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - Distortion-aware Transformer in 360{\deg} Salient Object Detection [44.74647420381127]
本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
360degデータの特徴を利用するために,学習可能な関係行列を提案する。
我々のモデルは既存の2D SOD(salient object detection)法と360 SOD法より優れている。
論文 参考訳(メタデータ) (2023-08-07T07:28:24Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Heterogenous Ensemble of Models for Molecular Property Prediction [55.91865861896012]
分子の異なるモーダル性を考える手法を提案する。
これらのモデルをHuberRegressorでアンサンブルします。
これにより、OGB Large-Scale Challenge (2022)の2textsuperscriptndエディションの勝利のソリューションが得られる。
論文 参考訳(メタデータ) (2022-11-20T17:25:26Z) - Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics [7.507853813361308]
本稿では,LiDARとカメラセンサから得られた3次元点雲と2次元カラー画像を利用して表面正規化を行うマルチモーダル手法を提案する。
本稿では,視覚的意味論と3次元幾何学的情報を巧みに融合した,トランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
交通シーンを模倣したシミュレーション3D環境から,提案モデルが学習可能であることが確認された。
論文 参考訳(メタデータ) (2022-11-19T03:55:09Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。