論文の概要: GazeMoE: Perception of Gaze Target with Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2603.06256v1
- Date: Fri, 06 Mar 2026 13:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.787986
- Title: GazeMoE: Perception of Gaze Target with Mixture-of-Experts
- Title(参考訳): GazeMoE: 実験の混合によるガゼターゲットの認識
- Authors: Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li,
- Abstract要約: 視覚画像から人間の視線目標を推定することは、人間の注意をロボットが理解するための重要な課題である。
本稿では,凍結基盤モデルからガゼターゲット関連キューを選択的に活用する,新しいエンドツーエンドフレームワークGazeMoEを提案する。
GazeMoEは最先端のパフォーマンスを実現し、視線推定タスクに挑戦する既存の手法よりも優れています。
- 参考スコア(独自算出の注目度): 5.556628823471207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Estimating human gaze target from visible images is a critical task for robots to understand human attention, yet the development of generalizable neural architectures and training paradigms remains challenging. While recent advances in pre-trained vision foundation models offer promising avenues for locating gaze targets, the integration of multi-modal cues -- including eyes, head poses, gestures, and contextual features -- demands adaptive and efficient decoding mechanisms. Inspired by Mixture-of-Experts (MoE) for adaptive domain expertise in large vision-language models, we propose GazeMoE, a novel end-to-end framework that selectively leverages gaze-target-related cues from a frozen foundation model through MoE modules. To address class imbalance in gaze target classification (in-frame vs. out-of-frame) and enhance robustness, GazeMoE incorporates a class-balancing auxiliary loss alongside strategic data augmentations, including region-specific cropping and photometric transformations. Extensive experiments on benchmark datasets demonstrate that our GazeMoE achieves state-of-the-art performance, outperforming existing methods on challenging gaze estimation tasks. The code and pre-trained models are released at https://huggingface.co/zdai257/GazeMoE
- Abstract(参考訳): 視覚画像から人間の視線目標を推定することは、人間の注意を理解するロボットにとって重要な課題であるが、一般化可能なニューラルアーキテクチャやトレーニングパラダイムの開発は依然として困難である。
事前訓練された視覚基盤モデルの最近の進歩は、視線目標の特定のための有望な道を提供する一方で、目、頭ポーズ、ジェスチャー、文脈的特徴を含むマルチモーダル・キューの統合は適応的で効率的な復号機構を要求する。
大規模視覚言語モデルにおける適応ドメイン専門知識のためのMixture-of-Experts (MoE) に着想を得たGazeMoEを提案する。
GazeMoEは、視線目標分類(フレーム内 vs. フレーム外)におけるクラス不均衡に対処し、堅牢性を高めるために、地域固有のトリミングや測光変換を含む戦略的データ拡張と並行して、クラスバランスの補助的損失を取り入れている。
ベンチマークデータセットに関する大規模な実験により、我々のGazeMoEは最先端のパフォーマンスを達成し、目視推定タスクに挑戦する既存の手法よりも優れています。
コードと事前訓練されたモデルはhttps://huggingface.co/zdai257/GazeMoEで公開されている。
関連論文リスト
- Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels [10.827081942898506]
我々は,新しい自己学習弱弱視線推定フレームワーク(ST-WSGE)を紹介する。
画像とビデオのデータセットから静的および動的視線情報を同時に学習できるモダリティに依存しないアーキテクチャであるGaze Transformer (GaT)を提案する。
3次元映像データセットと2次元視線目標ラベルを追従タスクから組み合わせることで,本手法は以下の重要な貢献を達成できる。
論文 参考訳(メタデータ) (2025-02-27T16:35:25Z) - UniGaze: Towards Universal Gaze Estimation via Large-scale Pre-Training [12.680014448486242]
自己教師付き事前学習による視線推定に,大規模な画像データセットを活用するUniGazeを提案する。
本実験により,意味的タスクのための自己教師型アプローチは,視線推定に適用した場合に失敗することが明らかとなった。
コストのかかるラベル付きデータへの依存を最小限に抑えながら、UniGazeは複数のデータ領域にわたる一般化を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-04T13:24:23Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed
Human Attention [44.10971508325032]
我々は、これまで研究されなかった物体の視線を予測できるゼロショット学習のための新しいモデルを開発した。
Gazeformerは自然言語モデルを使ってターゲットを符号化し、スキャンパス予測における意味的類似性を活用する。
また、目標現在および目標存在探索タスクの標準視線予測において、既存の目標検出モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-27T15:02:48Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。