論文の概要: CLIP-driven Dual Feature Enhancing Network for Gaze Estimation
- arxiv url: http://arxiv.org/abs/2502.20128v1
- Date: Thu, 27 Feb 2025 14:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:47.023148
- Title: CLIP-driven Dual Feature Enhancing Network for Gaze Estimation
- Title(参考訳): 注視推定のためのCLIP駆動デュアル特徴強調ネットワーク
- Authors: Lin Zhang, Yi Tian, Wanru Xu, Yi Jin, Yaping Huang,
- Abstract要約: 本稿では、視線推定性能を高めるために、CLIP-DFENet(CLIP-driven Dual Feature Enhancing Network)を提案する。
言語駆動微分モジュール(LDM)は、CLIPのテキストエンコーダに基づいて設計され、視線の意味的差異を明らかにする。
ビジョン駆動型核融合モジュール (VFM) を導入し、CLIPの画像エンコーダを通じて得られる視覚埋め込みの一般化された価値あるコンポーネントを強化する。
強化された特徴を視線方向にマップするために、頑丈なダブルヘッド・ゲイズレグレッサーが採用されている。
- 参考スコア(独自算出の注目度): 26.00124975891083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The complex application scenarios have raised critical requirements for precise and generalizable gaze estimation methods. Recently, the pre-trained CLIP has achieved remarkable performance on various vision tasks, but its potentials have not been fully exploited in gaze estimation. In this paper, we propose a novel CLIP-driven Dual Feature Enhancing Network (CLIP-DFENet), which boosts gaze estimation performance with the help of CLIP under a novel `main-side' collaborative enhancing strategy. Accordingly, a Language-driven Differential Module (LDM) is designed on the basis of the CLIP's text encoder to reveal the semantic difference of gaze. This module could empower our Core Feature Extractor with the capability of characterizing the gaze-related semantic information. Moreover, a Vision-driven Fusion Module (VFM) is introduced to strengthen the generalized and valuable components of visual embeddings obtained via CLIP's image encoder, and utilizes them to further improve the generalization of the features captured by Core Feature Extractor. Finally, a robust Double-head Gaze Regressor is adopted to map the enhanced features to gaze directions. Extensive experimental results on four challenging datasets over within-domain and cross-domain tasks demonstrate the discriminability and generalizability of our CLIP-DFENet.
- Abstract(参考訳): 複雑なアプリケーションシナリオは、正確で一般化可能な視線推定方法に重要な要件を提起している。
近年、事前訓練されたCLIPは、様々な視覚タスクにおいて顕著な性能を達成しているが、そのポテンシャルは視線推定において完全に活用されていない。
本稿では,CLIP-DFENet(CLIP-driven Dual Feature Enhancing Network)を提案する。
従って、言語駆動微分モジュール(LDM)はCLIPのテキストエンコーダに基づいて設計され、視線の意味的差異を明らかにする。
このモジュールは、私たちのコアフィーチャーエクストラクタに、視線に関連するセマンティック情報を特徴付ける能力を与えることができます。
さらに、CLIPの画像エンコーダを介して得られる視覚埋め込みの一般化された価値あるコンポーネントを強化するために、ビジョン駆動核融合モジュール(VFM)を導入し、コア機能エクストラクタによってキャプチャーされた機能の一般化をさらに改善する。
最後に、強化された特徴を視線方向にマップするために、頑丈なダブルヘッド・ゲイズレグレッサーが採用されている。
ドメイン内タスクとクロスドメインタスクの4つの挑戦的データセットに対する大規模な実験結果から、CLIP-DFENetの識別性と一般化性が確認された。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders [33.26237143983192]
本研究では,視覚目標推定の問題に対処する。
凍結したDINOv2エンコーダの特徴を活用して視線目標推定を効率化する新しいトランスフォーマフレームワークであるGaze-LLEを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:30Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model [13.890404285565225]
本稿では、事前学習された視覚言語モデルを用いて、その伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。
我々のフレームワークは、視線推定タスクに視覚・言語間の相互モダリティアプローチを利用した最初のものである。
論文 参考訳(メタデータ) (2024-03-08T07:37:21Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance [9.639618473371083]
既存の視線推定手法は言語信号とCLIP特徴空間に埋め込まれた先行情報によって伝達されるリッチな意味的手がかりを見落としている。
具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。
これに続いて、不均一な入力間の画像推定のモデリングを目的とした、きめ細かいマルチモーダル融合モジュールを実装した。
論文 参考訳(メタデータ) (2023-12-30T15:24:50Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Contrastive Representation Learning for Gaze Estimation [8.121462458089143]
ガゼコントラスト学習(Gaze Contrastive Learning, GazeCLR)という,視線推定のためのコントラスト表現学習フレームワークを提案する。
その結果, GazeCLR は領域間視線推定の性能を向上し,17.2% の相対的改善が得られた。
GazeCLRフレームワークは、数ショット評価のための最先端の表現学習手法と競合する。
論文 参考訳(メタデータ) (2022-10-24T17:01:18Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。