Fugu-MT 論文翻訳(概要): Lightweight Gaze Estimation Model Via Fusion Global Information

論文の概要: Lightweight Gaze Estimation Model Via Fusion Global Information

arxiv url: http://arxiv.org/abs/2411.18064v1
Date: Wed, 27 Nov 2024 05:16:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.54283
Title: Lightweight Gaze Estimation Model Via Fusion Global Information
Title（参考訳）: 核融合グローバル情報を用いた軽量視線推定モデル
Authors: Zhang Cheng, Yanxia Wang,
Abstract要約: 本稿では,新しい軽量視線推定モデルFGI-Netを提案する。グローバル情報をCNNに融合させ、多層畳み込みの必要性を効果的に補償する。 87.1%と79.1%のパラメータとFLOPの減少でより小さな角度誤差を達成している。
参考スコア（独自算出の注目度）: 0.9668407688201359
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning-based appearance gaze estimation methods are gaining popularity due to their high accuracy and fewer constraints from the environment. However, existing high-precision models often rely on deeper networks, leading to problems such as large parameters, long training time, and slow convergence. In terms of this issue, this paper proposes a novel lightweight gaze estimation model FGI-Net(Fusion Global Information). The model fuses global information into the CNN, effectively compensating for the need of multi-layer convolution and pooling to indirectly capture global information, while reducing the complexity of the model, improving the model accuracy and convergence speed. To validate the performance of the model, a large number of experiments are conducted, comparing accuracy with existing classical models and lightweight models, comparing convergence speed with models of different architectures, and conducting ablation experiments. Experimental results show that compared with GazeCaps, the latest gaze estimation model, FGI-Net achieves a smaller angle error with 87.1% and 79.1% reduction in parameters and FLOPs, respectively (MPIIFaceGaze is 3.74{\deg}, EyeDiap is 5.15{\deg}, Gaze360 is 10.50{\deg} and RT-Gene is 6.02{\deg}). Moreover, compared with different architectural models such as CNN and Transformer, FGI-Net is able to quickly converge to a higher accuracy range with fewer iterations of training, when achieving optimal accuracy on the Gaze360 and EyeDiap datasets, the FGI-Net model has 25% and 37.5% fewer iterations of training compared to GazeTR, respectively.
Abstract（参考訳）: 深層学習に基づく視線推定手法は, 精度が高く, 環境制約も少ないことから, 人気が高まっている。しかし、既存の高精度モデルは、しばしばより深いネットワークに依存し、大きなパラメータ、長いトレーニング時間、遅い収束などの問題を引き起こす。そこで本研究では,FGI-Net(Fusion Global Information)の軽量視線推定モデルを提案する。モデルはグローバル情報をCNNに融合させ、多層畳み込みとプールの必要性を効果的に補償し、間接的にグローバル情報をキャプチャし、モデルの複雑さを低減し、モデルの精度と収束速度を向上させる。モデルの性能を検証するため、既存の古典モデルや軽量モデルと比較し、収束速度を異なるアーキテクチャのモデルと比較し、アブレーション実験を行うなど、多数の実験を行った。実験結果から、最新の視線推定モデルであるGazeCapsと比較して、FGI-Netは、パラメータの87.1%、パラメータの79.1%、FLOPsの小さな角度誤差を達成している(MPIIFaceGazeは3.74{\deg、EyeDiapは5.15{\deg、Gaze360は10.50{\deg、RT-Geneは6.02{\deg)。さらに、CNNやTransformerのような異なるアーキテクチャモデルと比較して、FGI-Netは、Gaze360とEyeDiapのデータセットで最適な精度を達成する際に、トレーニングのイテレーションを減らして、より高い精度の範囲に迅速に収束することができる。

関連論文リスト

Low-Resolution Neural Networks [0.552480439325792]
本研究では,パラメータビット精度がモデル性能に与える影響を,標準32ビットモデルと比較して検討した。分析されたモデルには、完全に接続された層、畳み込み層、トランスフォーマーブロックがある。メモリ要求の低減と計算効率の向上により、最適化されたニューラルネットワークモデルに新たな時代がもたらされることが示唆されている。
論文参考訳（メタデータ） (2025-02-12T21:19:28Z)
Efficient Gravitational Wave Parameter Estimation via Knowledge Distillation: A ResNet1D-IAF Approach [2.4184866684341473]
本研究では,重力波解析における計算効率を高めるため,知識蒸留技術を用いた新しい手法を提案する。我々はResNet1Dと逆自己回帰フロー(Inverse Autoregressive Flow, IAF)アーキテクチャを組み合わせたフレームワークを開発し、複雑な教師モデルからの知識をより軽い学生モデルに伝達する。実験の結果,教師モデルの4.09と比較すると,学生モデルは最適構成(40,100,0.75)で3.70の検証損失を達成し,パラメータの数を43%削減した。
論文参考訳（メタデータ） (2024-12-11T03:56:46Z)
HyCubE: Efficient Knowledge Hypergraph 3D Circular Convolutional Embedding [21.479738859698344]
モデルの有効性と効率のトレードオフに達するためには、知識ハイパーグラフの埋め込みが望ましいし、難しい。本稿では,新しい3次元円形畳み込みニューラルネットワークを設計した,エンドツーエンドの知識ハイパーグラフ埋め込みモデルHyCubEを提案する。提案手法は, 平均8.22%, 最大33.82%の改善により, 常に最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2024-02-14T06:05:37Z)
Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric Super-Resolution with BLASTNet 2.0 Data [4.293221567339693]
圧縮性乱流の解析は、推進、エネルギー発生、環境に関する応用に不可欠である。我々は34個の高忠実度直接数値シミュレーションから744個のフルドメインのサンプルを含む2.2TBのデータセットネットワークを提案する。 3次元超解像のための5つのディープラーニングアプローチの合計49種類のバリエーションをベンチマークする。
論文参考訳（メタデータ） (2023-09-23T18:57:02Z)
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文参考訳（メタデータ） (2022-10-17T08:14:49Z)
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文参考訳（メタデータ） (2022-03-10T17:03:49Z)
Improving the Deployment of Recycling Classification through Efficient Hyper-Parameter Analysis [0.0]
本稿では,協調的なリサイクル分類モデルであるWasteNetのより効率的なバージョンを開発する。新たに開発されたモデルは、テストセット精度95.8%、実世界の精度95%、オリジナルよりも14%向上した。私たちの加速パイプラインは、Jetson Nano組み込みデバイスで毎秒750%から24パーセントの速度でモデルスループットを向上しました。
論文参考訳（メタデータ） (2021-10-21T10:42:14Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文参考訳（メタデータ） (2020-07-13T16:56:27Z)
Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-03-12T07:00:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。