論文の概要: GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance
- arxiv url: http://arxiv.org/abs/2401.00260v3
- Date: Fri, 26 Apr 2024 03:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 17:38:26.948750
- Title: GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance
- Title(参考訳): GazeCLIP: テキストガイダンスによる視線推定の強化を目指す
- Authors: Jun Wang, Hao Ruan, Mingjie Wang, Chuanghui Zhang, Huachun Li, Jun Zhou,
- Abstract要約: 既存の視線推定手法は言語信号とCLIP特徴空間に埋め込まれた先行情報によって伝達されるリッチな意味的手がかりを見落としている。
具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。
これに続いて、不均一な入力間の画像推定のモデリングを目的とした、きめ細かいマルチモーダル融合モジュールを実装した。
- 参考スコア(独自算出の注目度): 9.639618473371083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, visual gaze estimation has garnered increasing attention within the research community, owing to its wide-ranging application scenarios. While existing estimation approaches have achieved remarkable success in enhancing prediction accuracy, they primarily infer gaze from single-image signals, neglecting the potential benefits of the currently dominant text guidance. Notably, visual-language collaboration has been extensively explored across various visual tasks, such as image synthesis and manipulation, leveraging the remarkable transferability of large-scale Contrastive Language-Image Pre-training (CLIP) model. Nevertheless, existing gaze estimation approaches overlook the rich semantic cues conveyed by linguistic signals and the priors embedded in CLIP feature space, thereby yielding performance setbacks. To address this gap, we delve deeply into the text-eye collaboration protocol and introduce a novel gaze estimation framework, named GazeCLIP. Specifically, we intricately design a linguistic description generator to produce text signals with coarse directional cues. Additionally, a CLIP-based backbone that excels in characterizing text-eye pairs for gaze estimation is presented. This is followed by the implementation of a fine-grained multi-modal fusion module aimed at modeling the interrelationships between heterogeneous inputs. Extensive experiments on three challenging datasets demonstrate the superiority of the proposed GazeCLIP which achieves the state-of-the-art accuracy.
- Abstract(参考訳): 過去10年間で、広範囲にわたる応用シナリオのために、視覚的な視線推定が研究コミュニティ内で注目を集めている。
既存の推定手法は予測精度の向上に成功しているが、主に単一画像信号からの視線を推定し、現在支配的なテキストガイダンスの潜在的な利点を無視している。
特に、画像合成や操作、大規模コントラスト言語-画像事前学習(CLIP)モデルの顕著な伝達性を活用するなど、視覚的言語協調は様々な視覚的タスクで広く研究されている。
それでも、既存の視線推定手法は言語信号とCLIP特徴空間に埋め込まれた先行情報によって伝達されるリッチな意味的手がかりを見落とし、性能の後退をもたらす。
このギャップに対処するため、我々はテキスト・アイ・コラボレーション・プロトコルを深く掘り下げ、GazeCLIPという新しい視線推定フレームワークを導入しました。
具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。
また、視線推定のためのテキスト-アイ対を特徴付けるCLIPベースのバックボーンを提示する。
これに続いて、不均一な入力間の相互関係をモデル化することを目的とした、きめ細かいマルチモーダル融合モジュールが実装された。
3つの挑戦的なデータセットに対する大規模な実験は、最先端の精度を達成するための提案されたGazeCLIPの優位性を示している。
関連論文リスト
- CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model [13.890404285565225]
本稿では、事前学習された視覚言語モデルを用いて、その伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。
我々のフレームワークは、視線推定タスクに視覚・言語間の相互モダリティアプローチを利用した最初のものである。
論文 参考訳(メタデータ) (2024-03-08T07:37:21Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - CREPE: Learnable Prompting With CLIP Improves Visual Relationship
Prediction [30.921126445357118]
視覚オブジェクト関係の予測において,視覚言語モデル(VLM),特にCLIPの可能性を検討する。
現在の最先端の手法では、この課題に対処するために言語キューと視覚的特徴を利用する複雑なグラフィカルモデルを使用している。
我々はUVTransE関係予測フレームワークを採用し、シーンから主題、オブジェクト、ユニオンボックスへの翻訳埋め込みとして関係を学習する。
論文 参考訳(メタデータ) (2023-07-10T18:15:03Z) - Contrastive Representation Learning for Gaze Estimation [8.121462458089143]
ガゼコントラスト学習(Gaze Contrastive Learning, GazeCLR)という,視線推定のためのコントラスト表現学習フレームワークを提案する。
その結果, GazeCLR は領域間視線推定の性能を向上し,17.2% の相対的改善が得られた。
GazeCLRフレームワークは、数ショット評価のための最先端の表現学習手法と競合する。
論文 参考訳(メタデータ) (2022-10-24T17:01:18Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。