論文の概要: GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer
- arxiv url: http://arxiv.org/abs/2601.12316v1
- Date: Sun, 18 Jan 2026 08:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.570141
- Title: GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer
- Title(参考訳): GazeFormer-MoE: CLIP と MoE 変換器による文脈認識ガゼ推定
- Authors: Xinyuan Zhao, Xianrui Chen, Ahmad Chaddad,
- Abstract要約: 本稿では,3次元視線推定のためのセマンティックス,マルチスケールトランスフォーマを提案する。
本モデルでは,2.49,3.22,10.16,1.44のアート角誤差を新たに達成し,従来報告した結果よりも64%向上した。
- 参考スコア(独自算出の注目度): 7.153682966455712
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a semantics modulated, multi scale Transformer for 3D gaze estimation. Our model conditions CLIP global features with learnable prototype banks (illumination, head pose, background, direction), fuses these prototype-enriched global vectors with CLIP patch tokens and high-resolution CNN tokens in a unified attention space, and replaces several FFN blocks with routed/shared Mixture of Experts to increase conditional capacity. Evaluated on MPIIFaceGaze, EYEDIAP, Gaze360 and ETH-XGaze, our model achieves new state of the art angular errors of 2.49°, 3.22°, 10.16°, and 1.44°, demonstrating up to a 64% relative improvement over previously reported results. ablations attribute gains to prototype conditioning, cross scale fusion, MoE and hyperparameter. Our code is publicly available at https://github. com/AIPMLab/Gazeformer.
- Abstract(参考訳): 本稿では,3次元視線推定のためのセマンティックス,マルチスケールトランスフォーマを提案する。
我々のモデル条件では、CLIPグローバルな特徴を学習可能なプロトタイプバンク(照明、ヘッドポーズ、背景、方向)と組み合わせ、CLIPパッチトークンと高分解能CNNトークンを統一された注意空間に融合させ、複数のFFNブロックをルーティング/共有されたエキスパートミックスに置き換え、条件付きキャパシティを向上させる。
また,MPIIFaceGaze,EYEDIAP,Gaze360,ETH-XGazeの2.49°,3.22°,10.16°,1.44°の角度誤差が得られた。
ablations属性は、プロトタイプ条件付け、クロススケールフュージョン、MoE、ハイパーパラメータによって得られる。
私たちのコードはhttps://github.comで公開されています。
Gazeformer.com/AIPMLab/Gazeformer.com。
関連論文リスト
- SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - MaskConver: Revisiting Pure Convolution Model for Panoptic Segmentation [17.627376199097185]
我々は純粋な畳み込みモデルを再検討し、MaskConverという新しい汎光学アーキテクチャを提案する。
MaskConverは、センターを予測することによって、物や物の表現を完全に統一することを提案する。
本稿では,畳み込みモデルと変圧器モデルのパフォーマンスギャップを埋める強力なConvNeXt-UNetデコーダを提案する。
論文 参考訳(メタデータ) (2023-12-11T00:52:26Z) - MotionAGFormer: Enhancing 3D Human Pose Estimation with a
Transformer-GCNFormer Network [2.7268855969580166]
本稿では、2つの並列トランスとGCNFormerストリームを用いてチャネル数を分割する新しいAttention-GCNFormerブロックを提案する。
提案するGCNFormerモジュールは, 隣接する接合部間の局所的関係を利用して, トランス出力を補完する新しい表現を出力する。
我々は、Human3.6MとMPI-INF-3DHPの2つの人気のあるベンチマークデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2023-10-25T01:46:35Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Focal-UNet: UNet-like Focal Modulation for Medical Image Segmentation [8.75217589103206]
本稿では,新たに導入された焦点変調機構の助けを借りて,医用画像セグメンテーションのための新しいU字型アーキテクチャを提案する。
局所的および大域的特徴を集約する焦点モジュールの能力により、我々のモデルは変換器の広い受容場を同時に得ることができる。
論文 参考訳(メタデータ) (2022-12-19T06:17:22Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Pyramid Fusion Transformer for Semantic Segmentation [44.57867861592341]
マルチスケール特徴量を持つマスク毎のセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-01-11T16:09:25Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。