論文の概要: Model-aware 3D Eye Gaze from Weak and Few-shot Supervisions
- arxiv url: http://arxiv.org/abs/2311.12157v1
- Date: Mon, 20 Nov 2023 20:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:11:38.361733
- Title: Model-aware 3D Eye Gaze from Weak and Few-shot Supervisions
- Title(参考訳): 弱視と弱視による3次元眼球運動のモデル認識
- Authors: Nikola Popovic, Dimitrios Christodoulou, Danda Pani Paudel, Xi Wang,
Luc Van Gool
- Abstract要約: 本稿では,眼意味分類マスクの弱い監督と数個の3次元視線ベクトルの直接監督から3次元視線を予測することを提案する。
多様な環境下での実験では,提案手法の利点が示され,ベースラインの角度誤差が約5度低くなった。
- 参考スコア(独自算出の注目度): 60.360919642038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of predicting 3D eye gaze from eye images can be performed either by
(a) end-to-end learning for image-to-gaze mapping or by (b) fitting a 3D eye
model onto images. The former case requires 3D gaze labels, while the latter
requires eye semantics or landmarks to facilitate the model fitting. Although
obtaining eye semantics and landmarks is relatively easy, fitting an accurate
3D eye model on them remains to be very challenging due to its ill-posed nature
in general. On the other hand, obtaining large-scale 3D gaze data is cumbersome
due to the required hardware setups and computational demands. In this work, we
propose to predict 3D eye gaze from weak supervision of eye semantic
segmentation masks and direct supervision of a few 3D gaze vectors. The
proposed method combines the best of both worlds by leveraging large amounts of
weak annotations--which are easy to obtain, and only a few 3D gaze
vectors--which alleviate the difficulty of fitting 3D eye models on the
semantic segmentation of eye images. Thus, the eye gaze vectors, used in the
model fitting, are directly supervised using the few-shot gaze labels.
Additionally, we propose a transformer-based network architecture, that serves
as a solid baseline for our improvements. Our experiments in diverse settings
illustrate the significant benefits of the proposed method, achieving about 5
degrees lower angular gaze error over the baseline, when only 0.05% 3D
annotations of the training images are used. The source code is available at
https://github.com/dimitris-christodoulou57/Model-aware_3D_Eye_Gaze.
- Abstract(参考訳): 眼画像から3d視線を予測する作業は、どちらでも行うことができる。
(a)画像対ガゼマッピングのためのエンドツーエンド学習
(b)画像に3dのアイモデルを取り付ける。
前者は3D視線ラベル、後者はモデルフィッティングを容易にするために目の意味やランドマークを必要とする。
眼のセマンティクスやランドマークを得るのは比較的簡単だが、その不適切な性質から、正確な3dアイモデルを取り付けるのは非常に困難である。
一方,ハードウェアのセットアップや計算能力の要求により,大規模3次元視線データの取得は困難である。
本研究は,眼意味セグメンテーションマスクの弱監督と数個の3次元視線ベクトルの直接監督から3次元視線を予測することを提案する。
提案手法は,目視画像のセマンティクスセグメンテーションに3次元眼モデルを取り付けることの難しさを軽減し,取得が容易な大量の弱いアノテーションと,わずか数個の3次元視線ベクトルを活用することで,両世界の最善を両立させる。
これにより、モデルフィッティングで使用される視線ベクトルは、少数ショットの視線ラベルを用いて直接監視される。
さらに,改良のための基盤となるトランスフォーマーベースのネットワークアーキテクチャを提案する。
実験では, トレーニング画像の0.05%の3Dアノテーションを使用する場合, 角度誤差がベースラインよりも約5度低くなるという, 提案手法の利点を実証した。
ソースコードはhttps://github.com/dimitris-christodoulou57/Model-aware_3D_Eye_Gazeで公開されている。
関連論文リスト
- Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - Accurate Gaze Estimation using an Active-gaze Morphable Model [9.192482716410511]
画像から直接視線方向を後退させるのではなく、3次元形状モデルを追加することで視線推定精度が向上することを示す。
我々はこれを幾何学的頂点モデルに当てはめ、アクティブ・ゲイズ3DMMを与える。
本手法は,地上の真理視原点にアクセスすることなく,地上の真理視原点とカメラパラメータのみを用いて学習することができる。
論文 参考訳(メタデータ) (2023-01-30T18:51:14Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z) - Image GANs meet Differentiable Rendering for Inverse Graphics and
Interpretable 3D Neural Rendering [101.56891506498755]
異なるレンダリングによって、ニューラルネットワークをトレーニングして"逆グラフィックス"タスクを実行する方法が舗装された。
提案手法は,既存のデータセットでトレーニングした最先端の逆グラフネットワークを著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-10-18T22:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。