論文の概要: Multi-task Gaze Estimation Via Unidirectional Convolution
- arxiv url: http://arxiv.org/abs/2411.18061v1
- Date: Wed, 27 Nov 2024 05:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:47.767636
- Title: Multi-task Gaze Estimation Via Unidirectional Convolution
- Title(参考訳): 一方向の畳み込みによるマルチタスク・ゲイズ推定
- Authors: Zhang Cheng, Yanxia Wang,
- Abstract要約: 視線推定タスクにおける軽量モデルの性能向上を目的として,マルチタスク・ガゼというネットワークモデルを提案する。
Multitask-Gazeの主なコンポーネントは、一方向変換(UC)、空間とチャネルの注意(SCA)、グローバル畳み込みモジュール(GCM)、マルチタスク回帰モジュール(MRM)である。
- 参考スコア(独自算出の注目度): 0.9668407688201359
- License:
- Abstract: Using lightweight models as backbone networks in gaze estimation tasks often results in significant performance degradation. The main reason is that the number of feature channels in lightweight networks is usually small, which makes the model expression ability limited. In order to improve the performance of lightweight models in gaze estimation tasks, a network model named Multitask-Gaze is proposed. The main components of Multitask-Gaze include Unidirectional Convolution (UC), Spatial and Channel Attention (SCA), Global Convolution Module (GCM), and Multi-task Regression Module(MRM). UC not only significantly reduces the number of parameters and FLOPs, but also extends the receptive field and improves the long-distance modeling capability of the model, thereby improving the model performance. SCA highlights gaze-related features and suppresses gaze-irrelevant features. The GCM replaces the pooling layer and avoids the performance degradation due to information loss. MRM improves the accuracy of individual tasks and strengthens the connections between tasks for overall performance improvement. The experimental results show that compared with the State-of-the-art method SUGE, the performance of Multitask-Gaze on MPIIFaceGaze and Gaze360 datasets is improved by 1.71% and 2.75%, respectively, while the number of parameters and FLOPs are significantly reduced by 75.5% and 86.88%.
- Abstract(参考訳): 視線推定タスクでバックボーンネットワークとして軽量モデルを使用すると、しばしば性能が大幅に低下する。
主な理由は、軽量ネットワークにおける機能チャネルの数は通常小さいため、モデル表現能力が制限されるためである。
視線推定タスクにおける軽量モデルの性能向上のために,マルチタスク・ガゼというネットワークモデルを提案する。
Multitask-Gazeの主なコンポーネントは、一方向変換(UC)、空間とチャネルの注意(SCA)、GCM(Global Convolution Module)、MRM(Multi-task Regression Module)である。
UCはパラメータやFLOPの数を著しく削減するだけでなく、受容場を拡張し、モデルの長距離モデリング能力を改善し、モデル性能を向上させる。
SCAは、視線関連機能を強調し、視線非関連機能を抑制する。
GCMは、プーリング層を置換し、情報損失による性能劣化を回避する。
MRMは個々のタスクの精度を改善し、全体的なパフォーマンス改善のためのタスク間の接続を強化する。
実験の結果,MPIIFaceGaze と Gaze360 における Multitask-Gaze の性能はそれぞれ 1.71% と 2.75% に改善され,パラメータ数と FLOP は 75.5% と 86.88% に大幅に減少した。
関連論文リスト
- DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Less is More -- Towards parsimonious multi-task models using structured
sparsity [4.874780144224057]
この作業は、パラメータが少ない複数のタスクに最適化されたスパースモデルを作成することに焦点を当てている。
マルチタスク学習モデルの共有畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。
広範に使用されている2つのマルチタスク学習(MTL)データセットにおいて,シングルタスクとマルチタスク設定の両方においてグループ間隔が生じた結果を分析した。
論文 参考訳(メタデータ) (2023-08-23T13:09:03Z) - Prompt Guided Transformer for Multi-Task Dense Prediction [14.815576352301322]
本稿では,Prompt Guided Transformerと呼ばれる軽量なタスク条件モデルを導入し,性能とモデルパラメータを最適化する。
提案手法は,タスク条件のパラメータを少なくしながら,タスク条件付き手法の最先端化を実現し,性能とパラメータサイズの間に大きなバランスを保っている。
論文 参考訳(メタデータ) (2023-07-28T07:25:57Z) - Over-the-Air Federated Multi-Task Learning via Model Sparsification and
Turbo Compressed Sensing [48.19771515107681]
本稿では,エッジサーバの協調の下で,エッジデバイス上にデプロイされた複数の学習タスクを非直交型フェードチャネルで共有する,オーバー・ザ・エアのFMTLフレームワークを提案する。
OA-FMTLでは、エッジデバイスの局所的な更新はスパース化され、圧縮され、重ね合わせの方法でアップリンクチャネルに送信される。
提案するOA-FMTLフレームワークとM-Turbo-CSアルゴリズムの性能解析を行った。
論文 参考訳(メタデータ) (2022-05-08T08:03:52Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Towards Simple and Accurate Human Pose Estimation with Stair Network [34.421529219040295]
精度の高い多段階ポーズ推定システムに積み重ねることができるStair Networkと呼ばれる小さな判別モデルを開発した。
計算コストを削減するため、Stair Networkは、新しい基本的な特徴抽出ブロックで構成されている。
2つの標準データセットに対するStair Networkの有効性を示す。
論文 参考訳(メタデータ) (2022-02-18T10:37:13Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。