論文の概要: Lightweight Gaze Estimation Model Via Fusion Global Information
- arxiv url: http://arxiv.org/abs/2411.18064v1
- Date: Wed, 27 Nov 2024 05:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:47.141161
- Title: Lightweight Gaze Estimation Model Via Fusion Global Information
- Title(参考訳): 核融合グローバル情報を用いた軽量視線推定モデル
- Authors: Zhang Cheng, Yanxia Wang,
- Abstract要約: 本稿では,新しい軽量視線推定モデルFGI-Netを提案する。
グローバル情報をCNNに融合させ、多層畳み込みの必要性を効果的に補償する。
87.1%と79.1%のパラメータとFLOPの減少でより小さな角度誤差を達成している。
- 参考スコア(独自算出の注目度): 0.9668407688201359
- License:
- Abstract: Deep learning-based appearance gaze estimation methods are gaining popularity due to their high accuracy and fewer constraints from the environment. However, existing high-precision models often rely on deeper networks, leading to problems such as large parameters, long training time, and slow convergence. In terms of this issue, this paper proposes a novel lightweight gaze estimation model FGI-Net(Fusion Global Information). The model fuses global information into the CNN, effectively compensating for the need of multi-layer convolution and pooling to indirectly capture global information, while reducing the complexity of the model, improving the model accuracy and convergence speed. To validate the performance of the model, a large number of experiments are conducted, comparing accuracy with existing classical models and lightweight models, comparing convergence speed with models of different architectures, and conducting ablation experiments. Experimental results show that compared with GazeCaps, the latest gaze estimation model, FGI-Net achieves a smaller angle error with 87.1% and 79.1% reduction in parameters and FLOPs, respectively (MPIIFaceGaze is 3.74{\deg}, EyeDiap is 5.15{\deg}, Gaze360 is 10.50{\deg} and RT-Gene is 6.02{\deg}). Moreover, compared with different architectural models such as CNN and Transformer, FGI-Net is able to quickly converge to a higher accuracy range with fewer iterations of training, when achieving optimal accuracy on the Gaze360 and EyeDiap datasets, the FGI-Net model has 25% and 37.5% fewer iterations of training compared to GazeTR, respectively.
- Abstract(参考訳): 深層学習に基づく視線推定手法は, 精度が高く, 環境制約も少ないことから, 人気が高まっている。
しかし、既存の高精度モデルは、しばしばより深いネットワークに依存し、大きなパラメータ、長いトレーニング時間、遅い収束などの問題を引き起こす。
そこで本研究では,FGI-Net(Fusion Global Information)の軽量視線推定モデルを提案する。
モデルはグローバル情報をCNNに融合させ、多層畳み込みとプールの必要性を効果的に補償し、間接的にグローバル情報をキャプチャし、モデルの複雑さを低減し、モデルの精度と収束速度を向上させる。
モデルの性能を検証するため、既存の古典モデルや軽量モデルと比較し、収束速度を異なるアーキテクチャのモデルと比較し、アブレーション実験を行うなど、多数の実験を行った。
実験結果から、最新の視線推定モデルであるGazeCapsと比較して、FGI-Netは、パラメータの87.1%、パラメータの79.1%、FLOPsの小さな角度誤差を達成している(MPIIFaceGazeは3.74{\deg、EyeDiapは5.15{\deg、Gaze360は10.50{\deg、RT-Geneは6.02{\deg)。
さらに、CNNやTransformerのような異なるアーキテクチャモデルと比較して、FGI-Netは、Gaze360とEyeDiapのデータセットで最適な精度を達成する際に、トレーニングのイテレーションを減らして、より高い精度の範囲に迅速に収束することができる。
関連論文リスト
- LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection [0.0]
FLOPに基づく効率的な物体検出のためのニューラルネットワークアーキテクチャの設計選択に着目する。
そこで本研究では,YOLOモデルの有効性を高めるために,いくつかの最適化手法を提案する。
本稿では、オブジェクト検出のための新しいスケーリングパラダイムと、LeYOLOと呼ばれるYOLO中心のモデルに寄与する。
論文 参考訳(メタデータ) (2024-06-20T12:08:24Z) - HyCubE: Efficient Knowledge Hypergraph 3D Circular Convolutional Embedding [21.479738859698344]
モデルの有効性と効率のトレードオフに達するためには、知識ハイパーグラフの埋め込みが望ましいし、難しい。
本稿では,新しい3次元円形畳み込みニューラルネットワークを設計した,エンドツーエンドの知識ハイパーグラフ埋め込みモデルHyCubEを提案する。
提案手法は, 平均8.22%, 最大33.82%の改善により, 常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-02-14T06:05:37Z) - Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric
Super-Resolution with BLASTNet 2.0 Data [4.293221567339693]
圧縮性乱流の解析は、推進、エネルギー発生、環境に関する応用に不可欠である。
我々は34個の高忠実度直接数値シミュレーションから744個のフルドメインのサンプルを含む2.2TBのデータセットネットワークを提案する。
3次元超解像のための5つのディープラーニングアプローチの合計49種類のバリエーションをベンチマークする。
論文 参考訳(メタデータ) (2023-09-23T18:57:02Z) - Memory-Efficient Graph Convolutional Networks for Object Classification
and Detection with Event Cameras [2.3311605203774395]
グラフ畳み込みネットワーク(GCN)は、イベントデータを解析するための有望なアプローチである。
本稿では,満足度の高い結果と比較的低いモデル複雑性を達成するために,両要因を共に検討する。
その結果,特徴抽出モジュールのパラメータ数を450倍に減らし,データ表現のサイズを4.5倍に減らした。
論文 参考訳(メタデータ) (2023-07-26T11:44:44Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Improving the Deployment of Recycling Classification through Efficient
Hyper-Parameter Analysis [0.0]
本稿では,協調的なリサイクル分類モデルであるWasteNetのより効率的なバージョンを開発する。
新たに開発されたモデルは、テストセット精度95.8%、実世界の精度95%、オリジナルよりも14%向上した。
私たちの加速パイプラインは、Jetson Nano組み込みデバイスで毎秒750%から24パーセントの速度でモデルスループットを向上しました。
論文 参考訳(メタデータ) (2021-10-21T10:42:14Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。