論文の概要: One Eye is All You Need: Lightweight Ensembles for Gaze Estimation with
Single Encoders
- arxiv url: http://arxiv.org/abs/2211.11936v1
- Date: Tue, 22 Nov 2022 01:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:43:02.526011
- Title: One Eye is All You Need: Lightweight Ensembles for Gaze Estimation with
Single Encoders
- Title(参考訳): シングルエンコーダで視線を測る軽量アンサンブル「One Eye」
- Authors: Rishi Athavale, Lakshmi Sritan Motati, Rohan Kalahasty
- Abstract要約: 本稿では,ResNet と Inception モデルアーキテクチャを実装した視線推定モデルを提案する。
軽量アーキテクチャを用いることで,モデルパラメータ数が非常に少ないGazeCaptureデータセット上で高い性能を実現する。
また,テストセットの右目画像の誤差も有意に小さく,将来の視線推定ツールの設計において重要である可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gaze estimation has grown rapidly in accuracy in recent years. However, these
models often fail to take advantage of different computer vision (CV)
algorithms and techniques (such as small ResNet and Inception networks and
ensemble models) that have been shown to improve results for other CV problems.
Additionally, most current gaze estimation models require the use of either
both eyes or an entire face, whereas real-world data may not always have both
eyes in high resolution. Thus, we propose a gaze estimation model that
implements the ResNet and Inception model architectures and makes predictions
using only one eye image. Furthermore, we propose an ensemble calibration
network that uses the predictions from several individual architectures for
subject-specific predictions. With the use of lightweight architectures, we
achieve high performance on the GazeCapture dataset with very low model
parameter counts. When using two eyes as input, we achieve a prediction error
of 1.591 cm on the test set without calibration and 1.439 cm with an ensemble
calibration model. With just one eye as input, we still achieve an average
prediction error of 2.312 cm on the test set without calibration and 1.951 cm
with an ensemble calibration model. We also notice significantly lower errors
on the right eye images in the test set, which could be important in the design
of future gaze estimation-based tools.
- Abstract(参考訳): 近年,視線推定の精度は急速に向上している。
しかしながら、これらのモデルは、様々なコンピュータビジョン(CV)アルゴリズムや技術(小さなResNetやインセプションネットワークやアンサンブルモデルなど)を活用することができず、他のCV問題の結果を改善することが示されている。
さらに、現在の視線推定モデルは、両目または顔全体の使用を必要とするが、現実世界のデータは、常に両目を高解像度で持つとは限らない。
そこで本研究では,resnetとinceptionモデルアーキテクチャを実装し,単眼画像のみを用いて予測を行う視線推定モデルを提案する。
さらに,複数の個別アーキテクチャからの予測を主題固有の予測に用いるアンサンブルキャリブレーションネットワークを提案する。
軽量アーキテクチャを用いることで,モデルパラメータ数が非常に少ないGazeCaptureデータセット上で高い性能を実現する。
入力として2つの目を使用する場合,キャリブレーション無しで1.591cm,アンサンブルキャリブレーションモデルで1.439cmの予測誤差が得られる。
1つの目だけを入力にすると、テストセットの平均予測誤差はキャリブレーション無しで2.312cm、アンサンブルキャリブレーションモデルで1.951cmである。
また,テストセットの右目画像の誤差も有意に小さく,将来の視線推定ツールの設計において重要である可能性が示唆された。
関連論文リスト
- Establishing a Baseline for Gaze-driven Authentication Performance in VR: A Breadth-First Investigation on a Very Large Dataset [10.645578300818498]
本稿では,9202人の視線記録のデータセットを用いて,視線駆動型認証性能のベースラインを確立する。
我々の主要な発見は、最先端の機械学習アーキテクチャと十分に大きなトレーニングデータセットによって駆動される場合、視線認証はFIDO標準で必要とされるように正確であることを示している。
論文 参考訳(メタデータ) (2024-04-17T23:33:34Z) - Automated Classification of Model Errors on ImageNet [7.455546102930913]
モデル選択がエラー分布にどのように影響するかを研究するための自動エラー分類フレームワークを提案する。
我々は、900以上のモデルのエラー分布を網羅的に評価するために、我々のフレームワークを使用します。
特に、重大エラーの一部は、モデルの性能を過小評価しているにもかかわらず、重要なパフォーマンス指標であることを示すトップ1の精度で大幅に低下する。
論文 参考訳(メタデータ) (2023-11-13T20:41:39Z) - Proximity-Informed Calibration for Deep Neural Networks [49.330703634912915]
ProCalは、近接性に基づいてサンプル信頼度を調整する理論的保証を持つプラグアンドプレイアルゴリズムである。
ProCalは、近接バイアスに対処し、バランスの取れた、長い、分布シフトの設定の校正を改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-07T16:40:51Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Multiple Run Ensemble Learning withLow-Dimensional Knowledge Graph
Embeddings [4.317340121054659]
知識グラフ埋め込み(KGE)モデルのためのシンプルで効果的なパフォーマンス向上戦略を提案する。
モデルのトレーニングを200の埋め込みサイズと並行して6回繰り返し、テストのために6つの別々のモデルを組み合わせています。
このアプローチにより,様々なグラフパターンをモデル化する上で,様々なモデルがよりうまく対処できることが示される。
論文 参考訳(メタデータ) (2021-04-11T12:26:50Z) - Calibrating Deep Neural Networks using Focal Loss [77.92765139898906]
ミススキャリブレーション(Miscalibration)は、モデルの信頼性と正しさのミスマッチである。
焦点損失は、既に十分に校正されたモデルを学ぶことができることを示す。
ほぼすべてのケースにおいて精度を損なうことなく,最先端のキャリブレーションを達成できることを示す。
論文 参考訳(メタデータ) (2020-02-21T17:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。