論文の概要: GMGaze: MoE-Based Context-Aware Gaze Estimation with CLIP and Multiscale Transformer
- arxiv url: http://arxiv.org/abs/2605.00799v1
- Date: Fri, 01 May 2026 17:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.02917
- Title: GMGaze: MoE-Based Context-Aware Gaze Estimation with CLIP and Multiscale Transformer
- Title(参考訳): GMGaze: CLIP と Multiscale Transformer を用いた MoE ベースのコンテキスト認識ガゼ推定
- Authors: Xinyuan Zhao, Yihang Wu, Ahmad Chaddad, Sarah A. Alkhodair, Reem Kateb,
- Abstract要約: 我々は,グローバル条件付きマルチスケール・ゲイズ推定(GMGaze)を提案し,現行手法における3つの課題に対処する。
GMGaze は平均角誤差を 2.49$circ$, 3.22$circ$, 10.16$circ$, 1.44$circ$ とする。
クロスドメイン評価では、2つの標準転送ルートに対して最先端(SOTA)結果を提供する。
- 参考スコア(独自算出の注目度): 8.412980809680471
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Gaze estimation methods commonly use facial appearances to predict the direction of a person gaze. However, previous studies show three major challenges with convolutional neural network (CNN)-based, transformer-based, and contrastive language-image pre-training (CLIP)-based methods, including late fusion of image features, lack of factor-aware conditioning, and impractical capacity scaling. To address these challenges, we propose Globally-conditioned Multi-scale Gaze estimation (GMGaze), which leverages a multi-scale transformer architecture. Specifically, the model first introduces semantic prototype conditioning, which modulates the CLIP global image embedding using four learned prototype banks (i.e., illumination, background, head pose and appearance) to generate two complementary context-biased global tokens. These tokens, along with the CLIP patch and CNN tokens, are fused at the first layer. This early unified fusion prevents information loss common in late-stage merging. Finally, each token passes through sparse Mixture-of-Experts modules, providing conditional computational capacity without uniformly increasing dense parameters. For cross-domain adaptation, we incorporate an adversarial domain adaptation technique with a feature separation loss that encourages the two global tokens to remain de-correlated. Experiments using four public benchmarks (MPIIFaceGaze, EYEDIAP, Gaze360, and ETH-XGaze) show that GMGaze achieves mean angular errors of 2.49$^\circ$, 3.22$^\circ$, 10.16$^\circ$, and 1.44$^\circ$, respectively, outperforming previous baselines in all within-domain settings. In cross-domain evaluations, it provides state-of-the-art (SOTA) results on two standard transfer routes.
- Abstract(参考訳): 視線推定法は、一般的に顔の外観を用いて人の視線方向を予測する。
しかし、以前の研究では、畳み込みニューラルネットワーク(CNN)、トランスフォーマーベース、コントラッシブ言語イメージトレーニング(CLIP)ベースの3つの主要な課題が示されている。
これらの課題に対処するために,マルチスケールトランスフォーマーアーキテクチャを活用したグローバル条件付きマルチスケールゲイズ推定(GMGaze)を提案する。
具体的には、まずセマンティックプロトタイプコンディショニングを導入し、CLIPグローバルイメージ埋め込みを4つの学習されたプロトタイプバンク(照明、背景、頭部ポーズ、外観)で変調し、2つの補完的なコンテキストバイアス付きグローバルトークンを生成する。
これらのトークンとCLIPパッチとCNNトークンは、第1層で融合される。
この初期統合融合は、後期統合において一般的な情報損失を防ぐ。
最後に、各トークンはスパースミクチャー・オブ・エキスパートモジュールを通過し、一様に密度パラメータを増大させることなく条件付き計算能力を提供する。
クロスドメイン適応には,2つのグローバルトークンの非相関性を維持するために,特徴分離損失を伴う対向ドメイン適応手法が組み込まれている。
4つの公開ベンチマーク (MPIIFaceGaze, EYEDIAP, Gaze360, ETH-XGaze) を用いた実験では、GMGaze が平均角誤差 2.49$^\circ$, 3.22$^\circ$, 10.16$^\circ$, 1.44$^\circ$ を達成した。
クロスドメイン評価では、2つの標準転送ルートに対して最先端(SOTA)結果を提供する。
関連論文リスト
- GazeFormer-MoE: Context-Aware Gaze Estimation via CLIP and MoE Transformer [7.153682966455712]
本稿では,3次元視線推定のためのセマンティックス,マルチスケールトランスフォーマを提案する。
本モデルでは,2.49,3.22,10.16,1.44のアート角誤差を新たに達成し,従来報告した結果よりも64%向上した。
論文 参考訳(メタデータ) (2026-01-18T08:54:02Z) - What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation [20.89655949578527]
本稿では,この制限を頑健な学習機会に変換するフレームワークFLEX-Segを提案する。
5つの実世界のデータセットに対する実験は、最先端の手法よりも一貫した改善を示している。
その結果、不完全な合成データを扱うための適応的戦略が、ドメインの一般化に優れた結果をもたらすことが検証された。
論文 参考訳(メタデータ) (2025-11-28T07:46:32Z) - U(PM)$^2$:Unsupervised polygon matching with pre-trained models for challenging stereo images [2.3784282912975345]
本稿では,自動学習機能と手作り機能とを結合させることにより,事前学習モデルとの低コストな非教師付きポリゴンマッチングを新たに提案する。
我々は,ScanNetとSceneFlowのデータセットのU(PM)$2$を,新たな指標を用いてベンチマークした。
論文 参考訳(メタデータ) (2025-11-08T09:44:31Z) - BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers [2.5680214354539803]
半ショット変換器(BATR-FST)の両レベル適応型トケリファインメントを提案する。
BATR-FSTはトークン表現を徐々に改善し、数ショット分類のための頑健な帰納バイアスを維持している。
1ショットと5ショットの両方のシナリオで優れた結果が得られ、トランスフォーマーによる数ショットの分類が改善される。
論文 参考訳(メタデータ) (2025-09-16T07:33:21Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Merging Multiple Datasets for Improved Appearance-Based Gaze Estimation [10.682719521609743]
2段階のTransformer-based Gaze-Feature Fusion (TTGF) 法では、トランスフォーマーを使用して、両眼と顔の情報を別々にマージし、両眼にマージする。
提案手法は,各データセットにGaze Adaption Moduleを適用して,単一の共有推定器から推定した推定値を補正することにより,アノテーションの不一致を処理する。
論文 参考訳(メタデータ) (2024-09-02T02:51:40Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。