論文の概要: EM-Net: Gaze Estimation with Expectation Maximization Algorithm
- arxiv url: http://arxiv.org/abs/2412.08074v1
- Date: Wed, 11 Dec 2024 03:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:32.921729
- Title: EM-Net: Gaze Estimation with Expectation Maximization Algorithm
- Title(参考訳): EM-Net:期待最大化アルゴリズムによる注視推定
- Authors: Zhang Cheng, Yanxia Wang, Guoyu Xia,
- Abstract要約: 本稿では,ディープラーニングと従来の機械学習アルゴリズムに基づく,軽量な視線推定モデルEM-Netを提案する。
提案したGAM(Global Attention Mechanism)は,視線推定に関連する特徴を抽出し,グローバル依存関係を捕捉するモデルの能力を向上させる。
実験によると、トレーニングデータの50%しか使用しない前提で、EM-NetはGaze360、MPIIFaceGaze、RT-Geneデータセットのパフォーマンスをそれぞれ2.2%、2.02%、2.03%改善している。
- 参考スコア(独自算出の注目度): 0.8602553195689511
- License:
- Abstract: In recent years, the accuracy of gaze estimation techniques has gradually improved, but existing methods often rely on large datasets or large models to improve performance, which leads to high demands on computational resources. In terms of this issue, this paper proposes a lightweight gaze estimation model EM-Net based on deep learning and traditional machine learning algorithms Expectation Maximization algorithm. First, the proposed Global Attention Mechanism(GAM) is added to extract features related to gaze estimation to improve the model's ability to capture global dependencies and thus improve its performance. Second, by learning hierarchical feature representations through the EM module, the model has strong generalization ability, which reduces the need for sample size. Experiments have confirmed that, on the premise of using only 50% of the training data, EM-Net improves the performance of Gaze360, MPIIFaceGaze, and RT-Gene datasets by 2.2%, 2.02%, and 2.03%, respectively, compared with GazeNAS-ETH. It also shows good robustness in the face of Gaussian noise interference.
- Abstract(参考訳): 近年では、視線推定手法の精度は徐々に向上しているが、既存の手法では、大きなデータセットや大きなモデルに頼って性能を向上し、計算資源の要求が高まっている。
本稿では,ディープラーニングと従来の機械学習アルゴリズムの予測最大化アルゴリズムに基づく,軽量な視線推定モデルEM-Netを提案する。
まず,Global Attention Mechanism (GAM) を用いて,視線推定に関連する特徴を抽出し,グローバルな依存関係を捕捉し,その性能を向上させる。
第二に、EMモジュールを通して階層的な特徴表現を学習することにより、モデルは強力な一般化能力を持ち、サンプルサイズの必要性を減らすことができる。
実験によると、トレーニングデータの50%しか使用しない前提で、EM-NetはGaze360、MPIIFaceGaze、RT-GeneデータセットのパフォーマンスをGazeNAS-ETHと比較して2.2%、2.02%、2.03%改善している。
また、ガウスノイズ干渉の面においても、良好なロバスト性を示す。
関連論文リスト
- Haste Makes Waste: A Simple Approach for Scaling Graph Neural Networks [37.41604955004456]
グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な成功を収めている。
GNNを大規模グラフのアプリケーションに拡張するための様々なサンプリング手法が提案されている。
論文 参考訳(メタデータ) (2024-10-07T18:29:02Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Comparative Evaluation of Metaheuristic Algorithms for Hyperparameter
Selection in Short-Term Weather Forecasting [0.0]
本稿では,遺伝的アルゴリズム (GA), 微分進化 (DE), 粒子群最適化 (PSO) のメタヒューリスティックアルゴリズムの適用について検討する。
平均二乗誤差(MSE)や平均絶対パーセンテージ誤差(MAPE)といった指標に基づいて天気予報の性能を評価する。
論文 参考訳(メタデータ) (2023-09-05T22:13:35Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - On the optimization and pruning for Bayesian deep learning [1.0152838128195467]
重み空間上でニューラルネットワークを学習するための適応型変分ベイズアルゴリズムを提案する。
EM-MCMCアルゴリズムにより,ワンショットで最適化とモデルプルーニングを行うことができる。
我々の密度モデルは最先端の性能に到達でき、スパースモデルは以前提案したプルーニング方式と比較して非常によく機能する。
論文 参考訳(メタデータ) (2022-10-24T05:18:08Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Multi-objective hyperparameter optimization with performance uncertainty [62.997667081978825]
本稿では,機械学習アルゴリズムの評価における不確実性を考慮した多目的ハイパーパラメータ最適化の結果について述べる。
木構造型Parzen Estimator(TPE)のサンプリング戦略と、ガウス過程回帰(GPR)と異種雑音の訓練後に得られたメタモデルを組み合わせる。
3つの解析的テスト関数と3つのML問題の実験結果は、多目的TPEとGPRよりも改善したことを示している。
論文 参考訳(メタデータ) (2022-09-09T14:58:43Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。