論文の概要: GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance
- arxiv url: http://arxiv.org/abs/2401.00260v2
- Date: Sun, 7 Jan 2024 04:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:37:08.520089
- Title: GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance
- Title(参考訳): GazeCLIP: テキストガイダンスによる視線推定の強化を目指す
- Authors: Jun Wang, Hao Ruan, Mingjie Wang, Chuanghui Zhang, Huachun Li, Jun
Zhou
- Abstract要約: 既存の視線推定手法は、言語信号やCLIP特徴空間の先行情報によって伝達されるリッチな意味的手がかりを無視する。
本稿では,GazeCLIPと呼ばれる新しい視線推定フレームワークを提案する。
具体的には、粗い手がかりを持つテキスト信号を生成する言語記述生成器を複雑に設計する。
提案したGazeCLIPは,従来の手法を超越し,最先端の推定精度を実現する。
- 参考スコア(独自算出の注目度): 10.214292245874379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past decade, visual gaze estimation has garnered growing attention
within the research community, thanks to its wide-ranging application
scenarios. While existing estimation approaches have achieved remarkable
success in enhancing prediction accuracy, they primarily infer gaze directions
from single-image signals and discard the huge potentials of the currently
dominant text guidance. Notably, visual-language collaboration has been
extensively explored across a range of visual tasks, such as image synthesis
and manipulation, leveraging the remarkable transferability of large-scale
Contrastive Language-Image Pre-training (CLIP) model. Nevertheless, existing
gaze estimation approaches ignore the rich semantic cues conveyed by linguistic
signals and priors in CLIP feature space, thereby yielding performance
setbacks. In pursuit of making up this gap, we delve deeply into the text-eye
collaboration protocol and introduce a novel gaze estimation framework in this
paper, referred to as GazeCLIP. Specifically, we intricately design a
linguistic description generator to produce text signals with coarse
directional cues. Additionally, a CLIP-based backbone that excels in
characterizing text-eye pairs for gaze estimation is presented. This is
followed by the implementation of a fine-grained multi-modal fusion module
aimed at modeling the interrelationships between heterogeneous inputs.
Extensive experiments on three challenging datasets demonstrate the superiority
of the proposed GazeCLIP which surpasses the previous approaches and achieves
the state-of-the-art estimation accuracy.
- Abstract(参考訳): 過去10年間で、視覚的な視線の推定は、広い範囲のアプリケーションシナリオのおかげで、研究コミュニティ内で注目を集めている。
既存の推定手法は予測精度の向上に成功しているが、主に単一画像信号から視線方向を推定し、現在支配的なテキストガイダンスの潜在可能性を捨てている。
特に、画像合成や操作、大規模コントラスト言語-画像事前学習(CLIP:Contrastive Language- Image Pre-training)モデルの顕著な伝達性を活用するなど、視覚的言語協調は様々な視覚的タスクで広く研究されている。
それでも既存の視線推定手法は言語信号やCLIP特徴空間の先行情報によって伝達されるリッチな意味的手がかりを無視し、性能の低下をもたらす。
このギャップを解消するために,我々はテキスト・アイ協調プロトコルを深く掘り下げ,ガゼクリップと呼ばれる新しい視線推定フレームワークを導入する。
具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。
また、視線推定のためのテキスト-アイ対を特徴付けるCLIPベースのバックボーンを提示する。
これに続いて、異種入力間の相互関係をモデル化することを目的とした、きめ細かいマルチモーダル融合モジュールを実装した。
3つの挑戦的データセットに関する広範囲な実験は、従来のアプローチを上回り、最先端の推定精度を達成するガゼクリップの優位性を示している。
関連論文リスト
- CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model [13.890404285565225]
本稿では、事前学習された視覚言語モデルを用いて、その伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。
我々のフレームワークは、視線推定タスクに視覚・言語間の相互モダリティアプローチを利用した最初のものである。
論文 参考訳(メタデータ) (2024-03-08T07:37:21Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Semi-supervised Contrastive Regression for Estimation of Eye Gaze [0.609170287691728]
本稿では、視線方向推定のための半教師付きコントラスト学習フレームワークを開発する。
小さなラベル付きガゼデータセットにより、このフレームワークは、目に見えない顔画像であっても、一般化されたソリューションを見つけることができる。
コントラスト回帰フレームワークは, 視線推定に用いられているいくつかの手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-05T04:11:38Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。