論文の概要: GazeCLIP: Enhancing Gaze Estimation Through Text-Guided Multimodal Learning
- arxiv url: http://arxiv.org/abs/2401.00260v4
- Date: Sat, 08 Mar 2025 13:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:42:04.345599
- Title: GazeCLIP: Enhancing Gaze Estimation Through Text-Guided Multimodal Learning
- Title(参考訳): GazeCLIP: テキストガイド型マルチモーダル学習によるゲーズ推定の強化
- Authors: Jun Wang, Hao Ruan, Liangjian Wen, Yong Dai, Mingjie Wang,
- Abstract要約: テキストと顔のコラボレーションを深く探求する新しい視線推定フレームワークであるGazeCLIPを提案する。
具体的には、厳密に設計された言語記述生成器を導入し、粗い方向の手がかりに富んだテキスト信号を生成する。
本研究は,視覚タスクのためのマルチモーダル学習における視線推定と新たな道を開くために,視覚言語を用いた協調作業の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 12.706496295933343
- License:
- Abstract: Visual gaze estimation, with its wide-ranging application scenarios, has garnered increasing attention within the research community. Although existing approaches infer gaze solely from image signals, recent advances in visual-language collaboration have demonstrated that the integration of linguistic information can significantly enhance performance across various visual tasks. Leveraging the remarkable transferability of large-scale Contrastive Language-Image Pre-training (CLIP) models, we address the open and urgent question of how to effectively apply linguistic cues to gaze estimation. In this work, we propose GazeCLIP, a novel gaze estimation framework that deeply explores text-face collaboration. Specifically, we introduce a meticulously designed linguistic description generator to produce text signals enriched with coarse directional cues. Furthermore, we present a CLIP-based backbone adept at characterizing text-face pairs for gaze estimation, complemented by a fine-grained multimodal fusion module that models the intricate interrelationships between heterogeneous inputs. Extensive experiments on three challenging datasets demonstrate the superiority of GazeCLIP, which achieves state-of-the-art accuracy. Our findings underscore the potential of using visual-language collaboration to advance gaze estimation and open new avenues for future research in multimodal learning for visual tasks. The implementation code and the pre-trained model will be made publicly available.
- Abstract(参考訳): 広い範囲のアプリケーションシナリオを持つ視覚的視線推定は、研究コミュニティ内で注目を集めている。
既存のアプローチは画像信号からのみ目をそらしているが、近年の視覚・言語協調の進歩により、言語情報の統合は様々な視覚的タスクにおけるパフォーマンスを著しく向上させることができることが証明されている。
大規模コントラスト言語-画像事前学習(CLIP)モデルの顕著な伝達性を活用して、言語的手がかりを効果的に適用する方法のオープンで緊急な疑問に対処する。
本研究では,テキストと顔のコラボレーションを深く研究する新しい視線推定フレームワークであるGazeCLIPを提案する。
具体的には、厳密に設計された言語記述生成器を導入し、粗い方向の手がかりに富んだテキスト信号を生成する。
さらに,不均一な入力間の複雑な相互関係をモデル化した微細なマルチモーダル融合モジュールによって補完される,視線推定のためのテキスト対を特徴付けるCLIPベースのバックボーンを提案する。
3つの挑戦的なデータセットに対する大規模な実験は、最先端の精度を実現するGazeCLIPの優位性を示している。
本研究は,視覚タスクのためのマルチモーダル学習における視線推定と新たな道を開くために,視覚言語を用いた協調作業の可能性を明らかにするものである。
実装コードと事前訓練されたモデルは公開されます。
関連論文リスト
- Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP [19.697857943845012]
本稿では,テキストプロトタイプの助けを借りて,視覚空間におけるクラス固有の視覚プロトタイプを学習するためのフレームワークを提案する。
また、対応するプロトタイプに埋め込まれた領域を対比する地域意味コントラストモジュールを提案する。
提案するフレームワークは,2つのベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-27T13:55:11Z) - LG-Gaze: Learning Geometry-aware Continuous Prompts for Language-Guided Gaze Estimation [12.903711441941663]
視線推定モデルが一般化する能力は、視線とは無関係な様々な要因によって著しく妨げられることが多い。
本稿では,視線推定タスクを視覚言語アライメント問題として,新しいアプローチを提案する。
提案するフレームワークはLanguage-Guided Gaze Estimation (LG-Gaze) と呼ばれ,視覚言語モデルの豊富な事前知識から視線推定のための連続的・幾何学的特徴を学習する。
論文 参考訳(メタデータ) (2024-11-13T13:46:15Z) - CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model [13.890404285565225]
本稿では、事前学習された視覚言語モデルを用いて、その伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。
我々のフレームワークは、視線推定タスクに視覚・言語間の相互モダリティアプローチを利用した最初のものである。
論文 参考訳(メタデータ) (2024-03-08T07:37:21Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。