論文の概要: SLYKLatent: A Learning Framework for Gaze Estimation Using Deep Facial Feature Learning
- arxiv url: http://arxiv.org/abs/2402.01555v2
- Date: Wed, 13 Nov 2024 11:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 19:24:42.002742
- Title: SLYKLatent: A Learning Framework for Gaze Estimation Using Deep Facial Feature Learning
- Title(参考訳): SLYKLatent: 深層顔特徴学習を用いた視線推定学習フレームワーク
- Authors: Samuel Adebayo, Joost C. Dessing, Seán McLoone,
- Abstract要約: SLYKLatentは、データセットの外観不安定性問題に対処することで、視線推定を向上するための新しいアプローチである。
SLYKLatentは、自己教師付き学習を使用して、表情データセットでの初期トレーニングを行い、その後、パッチベースのトリブランチネットワークで改善する。
ベンチマークデータセットの評価では、Gaze360が10.9%改善され、トップMPIIFaceGazeの3.8%に取って代わられ、ETH-XGazeのサブセットが11.6%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this research, we present SLYKLatent, a novel approach for enhancing gaze estimation by addressing appearance instability challenges in datasets due to aleatoric uncertainties, covariant shifts, and test domain generalization. SLYKLatent utilizes Self-Supervised Learning for initial training with facial expression datasets, followed by refinement with a patch-based tri-branch network and an inverse explained variance-weighted training loss function. Our evaluation on benchmark datasets achieves a 10.9% improvement on Gaze360, supersedes top MPIIFaceGaze results with 3.8%, and leads on a subset of ETH-XGaze by 11.6%, surpassing existing methods by significant margins. Adaptability tests on RAF-DB and Affectnet show 86.4% and 60.9% accuracies, respectively. Ablation studies confirm the effectiveness of SLYKLatent's novel components.
- Abstract(参考訳): 本研究では,Aleatoric的な不確実性,共変シフト,テスト領域の一般化によるデータセットの外観不安定性問題に対処し,視線推定を向上するための新しいアプローチであるSLYKLatentを提案する。
SLYKLatentは、自己監督学習を使用して、表情データセットによる初期トレーニングを行い、その後、パッチベースのトリブランチネットワークと、逆説明分散重み付きトレーニング損失関数で改善する。
ベンチマークデータセットの評価では、Gaze360の10.9%の改善を実現し、トップMPIIFaceGazeの3.8%に取って代わり、ETH-XGazeのサブセットを11.6%減らし、既存のメソッドをかなりのマージンで上回る結果となった。
RAF-DBとAffectnetの適応性テストはそれぞれ86.4%と60.9%の精度を示している。
アブレーション研究により、SLYKLatentの新規成分の有効性が確認された。
関連論文リスト
- A Self-Supervised Framework for Improved Generalisability in Ultrasound B-mode Image Segmentation [0.2556201059248933]
我々は、BモードUS画像に適した対照的なSSLアプローチを導入し、RCL(Relation Contrastive Loss)を取り入れた。
提案手法は, 3つの乳房データセットにおいて, 従来の教師付きセグメンテーション法より有意に優れていた。
我々の研究は、特にデータ制限条件下で、ドメインにインスパイアされたSSLが米国のセグメンテーションを改善することを強調している。
論文 参考訳(メタデータ) (2025-02-04T17:06:41Z) - INTACT: Inducing Noise Tolerance through Adversarial Curriculum Training for LiDAR-based Safety-Critical Perception and Autonomy [0.4124847249415279]
本稿では、雑音の多いLiDARデータに対するディープニューラルネットワーク(DNN)の堅牢性を高めるために設計された新しいフレームワークを提案する。
IntACTは、メタラーニングと、敵対的なカリキュラムトレーニング(ACT)を組み合わせることで、3Dポイントクラウドにおけるデータの破損とスパーシリティによる課題に対処する。
IntACTの有効性は、オブジェクトの検出、追跡、分類ベンチマークに関する包括的な評価を通じて実証される。
論文 参考訳(メタデータ) (2025-02-04T00:02:16Z) - Multiple Instance Learning with random sampling for Whole Slide Image
Classification [0.0]
トレーニング中のパッチのランダムサンプリングは計算的に効率的であり、正規化戦略として機能する。
我々は、CAMELYON16データセットのパッチの30%を使用して、1.7%の最適なパフォーマンス向上と、TUPAC16データセットのたった8つのサンプルで3.7%を見出した。
また,解釈可能性効果はデータセットに依存し,解釈性はCAMELYON16に影響を及ぼすが,TUPAC16には影響しない。
論文 参考訳(メタデータ) (2024-03-08T14:31:40Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Robust Uncertainty Estimation for Classification of Maritime Objects [0.34998703934432673]
モンテカルロ・ドロップアウトにより達成されたクラス内不確実性と結合し,より包括的不確実性を示す手法を提案する。
我々の研究はFPR95を8%改善し、アウト・オブ・ディストリビューションデータを使わずにモデルがトレーニングされる場合の現在の最高性能の作業と比較した。
ベースラインに関してFPR95を44.2%改善し,ShiPSデータセットを公開し,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-07-03T19:54:53Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Training Strategies for Improved Lip-reading [61.661446956793604]
本研究では,最先端データ拡張手法,時間モデル,その他のトレーニング戦略の性能について検討する。
すべての手法を組み合わせると、分類精度は93.4%となり、現在の最先端技術よりも4.6%向上した。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することが明らかとなった。
論文 参考訳(メタデータ) (2022-09-03T09:38:11Z) - A new weakly supervised approach for ALS point cloud semantic
segmentation [1.4620086904601473]
本稿では,ALS点雲のセマンティックセグメンテーションのための,ディープラーニングに基づく弱教師付きフレームワークを提案する。
不完全でスパースなラベルの対象となるラベルのないデータから潜在的情報を利用する。
本手法は, 総合精度が83.0%, 平均F1スコアが70.0%であり, それぞれ6.9%, 12.8%増加した。
論文 参考訳(メタデータ) (2021-10-04T14:00:23Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。