論文の概要: SLYKLatent, a Learning Framework for Facial Features Estimation
- arxiv url: http://arxiv.org/abs/2402.01555v1
- Date: Fri, 2 Feb 2024 16:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:14:28.325924
- Title: SLYKLatent, a Learning Framework for Facial Features Estimation
- Title(参考訳): SLYKLatent - 顔の特徴推定のための学習フレームワーク
- Authors: Samuel Adebayo, Joost C. Dessing, Se\'an McLoone
- Abstract要約: SLYKLatentは、データセットの外観不安定性問題に対処することで、視線推定を向上するための新しいアプローチである。
ベンチマークデータセットの評価では,上位MPIIFaceGazeと競合するGaze360が8.7%向上し,ETH-XGazeのサブセットが13%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this research, we present SLYKLatent, a novel approach for enhancing gaze
estimation by addressing appearance instability challenges in datasets due to
aleatoric uncertainties, covariant shifts, and test domain generalization.
SLYKLatent utilizes Self-Supervised Learning for initial training with facial
expression datasets, followed by refinement with a patch-based tri-branch
network and an inverse explained variance-weighted training loss function. Our
evaluation on benchmark datasets achieves an 8.7% improvement on Gaze360,
rivals top MPIIFaceGaze results, and leads on a subset of ETH-XGaze by 13%,
surpassing existing methods by significant margins. Adaptability tests on
RAF-DB and Affectnet show 86.4% and 60.9% accuracies, respectively. Ablation
studies confirm the effectiveness of SLYKLatent's novel components. This
approach has strong potential in human-robot interaction.
- Abstract(参考訳): 本研究では, aleatoric uncertainties, covariant shifts, and test domain generalizationによるデータセットの出現不安定性問題に対処することにより,視線推定を改善する新しい手法であるslyklatentを提案する。
slyklatentは、表情データセットを用いた初期トレーニングに自己教師付き学習を使用し、続いてパッチベースのトリブランチネットワークと逆説明型分散重み付きトレーニング損失関数による改良を行っている。
ベンチマークデータセットの評価では,上位MPIIFaceGazeと競合するGaze360が8.7%向上し,ETH-XGazeのサブセットが13%向上し,既存の手法をかなり上回った。
RAF-DBとAffectnetの適応性テストはそれぞれ86.4%と60.9%の精度を示している。
アブレーション研究はslyklatentの新規成分の有効性を確認した。
このアプローチは人間とロボットの相互作用に強い可能性を秘めている。
関連論文リスト
- Multiple Instance Learning with random sampling for Whole Slide Image
Classification [0.0]
トレーニング中のパッチのランダムサンプリングは計算的に効率的であり、正規化戦略として機能する。
我々は、CAMELYON16データセットのパッチの30%を使用して、1.7%の最適なパフォーマンス向上と、TUPAC16データセットのたった8つのサンプルで3.7%を見出した。
また,解釈可能性効果はデータセットに依存し,解釈性はCAMELYON16に影響を及ぼすが,TUPAC16には影響しない。
論文 参考訳(メタデータ) (2024-03-08T14:31:40Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - SSL-CPCD: Self-supervised learning with composite pretext-class
discrimination for improved generalisability in endoscopic image analysis [3.1542695050861544]
深層学習に基づく教師付き手法は医用画像解析において広く普及している。
大量のトレーニングデータと、目に見えないデータセットに対する一般的な問題に直面する必要がある。
本稿では,加法的角マージンを用いたパッチレベルのインスタンスグループ識別とクラス間変動のペナル化について検討する。
論文 参考訳(メタデータ) (2023-05-31T21:28:08Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Training Strategies for Improved Lip-reading [61.661446956793604]
本研究では,最先端データ拡張手法,時間モデル,その他のトレーニング戦略の性能について検討する。
すべての手法を組み合わせると、分類精度は93.4%となり、現在の最先端技術よりも4.6%向上した。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することが明らかとなった。
論文 参考訳(メタデータ) (2022-09-03T09:38:11Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - A new weakly supervised approach for ALS point cloud semantic
segmentation [1.4620086904601473]
本稿では,ALS点雲のセマンティックセグメンテーションのための,ディープラーニングに基づく弱教師付きフレームワークを提案する。
不完全でスパースなラベルの対象となるラベルのないデータから潜在的情報を利用する。
本手法は, 総合精度が83.0%, 平均F1スコアが70.0%であり, それぞれ6.9%, 12.8%増加した。
論文 参考訳(メタデータ) (2021-10-04T14:00:23Z) - Consistency and Monotonicity Regularization for Neural Knowledge Tracing [50.92661409499299]
人間の知識獲得を追跡する知識追跡(KT)は、オンライン学習と教育におけるAIの中心的なコンポーネントです。
本稿では, 新たなデータ拡張, 代替, 挿入, 削除の3種類と, 対応する正規化損失を提案する。
さまざまなKTベンチマークに関する広範な実験は、私たちの正規化スキームがモデルのパフォーマンスを一貫して改善することを示しています。
論文 参考訳(メタデータ) (2021-05-03T02:36:29Z) - Generic Semi-Supervised Adversarial Subject Translation for Sensor-Based
Human Activity Recognition [6.2997667081978825]
本稿では,人間活動認識における半教師付きドメイン適応のための,新しい汎用的で堅牢なアプローチを提案する。
本手法は,対象対象対象と対象対象対象対象からのみ注釈付きサンプルからの知識を活用することにより,問題点に対処するための敵対的枠組みの利点を生かしている。
その結果,提案手法が最先端手法に対して有効であることを示し,オポチュニティ,LISSI,PAMAP2データセットの高レベルのアクティビティ認識指標を最大13%,4%,13%改善した。
論文 参考訳(メタデータ) (2020-11-11T12:16:23Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。