論文の概要: LG-Gaze: Learning Geometry-aware Continuous Prompts for Language-Guided Gaze Estimation
- arxiv url: http://arxiv.org/abs/2411.08606v1
- Date: Wed, 13 Nov 2024 13:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:07.169833
- Title: LG-Gaze: Learning Geometry-aware Continuous Prompts for Language-Guided Gaze Estimation
- Title(参考訳): LG-Gaze: 言語誘導ガゼ推定のための幾何学的学習型連続プロンプト
- Authors: Pengwei Yin, Jingjing Wang, Guanzhong Zeng, Di Xie, Jiang Zhu,
- Abstract要約: 視線推定モデルが一般化する能力は、視線とは無関係な様々な要因によって著しく妨げられることが多い。
本稿では,視線推定タスクを視覚言語アライメント問題として,新しいアプローチを提案する。
提案するフレームワークはLanguage-Guided Gaze Estimation (LG-Gaze) と呼ばれ,視覚言語モデルの豊富な事前知識から視線推定のための連続的・幾何学的特徴を学習する。
- 参考スコア(独自算出の注目度): 12.903711441941663
- License:
- Abstract: The ability of gaze estimation models to generalize is often significantly hindered by various factors unrelated to gaze, especially when the training dataset is limited. Current strategies aim to address this challenge through different domain generalization techniques, yet they have had limited success due to the risk of overfitting when solely relying on value labels for regression. Recent progress in pre-trained vision-language models has motivated us to capitalize on the abundant semantic information available. We propose a novel approach in this paper, reframing the gaze estimation task as a vision-language alignment issue. Our proposed framework, named Language-Guided Gaze Estimation (LG-Gaze), learns continuous and geometry-sensitive features for gaze estimation benefit from the rich prior knowledges of vision-language models. Specifically, LG-Gaze aligns gaze features with continuous linguistic features through our proposed multimodal contrastive regression loss, which customizes adaptive weights for different negative samples. Furthermore, to better adapt to the labels for gaze estimation task, we propose a geometry-aware interpolation method to obtain more precise gaze embeddings. Through extensive experiments, we validate the efficacy of our framework in four different cross-domain evaluation tasks.
- Abstract(参考訳): 視線推定モデルが一般化する能力は、特にトレーニングデータセットが制限されている場合、視線とは無関係な様々な要因によって著しく妨げられることが多い。
現在の戦略は、異なるドメインの一般化技術を通じてこの問題に対処することを目的としているが、回帰にバリューラベルのみに依存する場合の過度な適合のリスクにより、成功は限られている。
事前学習された視覚言語モデルの最近の進歩は、利用可能な豊富な意味情報を活用する動機となった。
本稿では,視線推定タスクを視覚言語アライメント問題として,新しいアプローチを提案する。
提案するフレームワークはLanguage-Guided Gaze Estimation (LG-Gaze) と呼ばれ,視覚言語モデルの豊富な事前知識から視線推定のための連続的・幾何学的特徴を学習する。
具体的には、LG-Gazeは、異なる負のサンプルに対して適応重みをカスタマイズするマルチモーダル・コントラッシブ・レグレッション・ロス(Multimodal contrastive regression loss)を提案することで、視線特徴と連続的な言語的特徴を一致させる。
さらに,視線推定タスクのラベルに適応するために,より正確な視線埋め込みを得るための幾何認識補間法を提案する。
大規模な実験を通じて,4つの異なるドメイン間評価タスクにおいて,フレームワークの有効性を検証した。
関連論文リスト
- Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Exploring the Impact of a Transformer's Latent Space Geometry on Downstream Task Performance [0.0]
事前学習の利点の多くは、潜在空間表現の幾何学的特徴によって捉えられる可能性がある。
量子化セル密度の測定値と平均GLUE性能との間には強い線形関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-18T00:17:30Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model [13.890404285565225]
本稿では、事前学習された視覚言語モデルを用いて、その伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。
我々のフレームワークは、視線推定タスクに視覚・言語間の相互モダリティアプローチを利用した最初のものである。
論文 参考訳(メタデータ) (2024-03-08T07:37:21Z) - GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance [9.639618473371083]
既存の視線推定手法は言語信号とCLIP特徴空間に埋め込まれた先行情報によって伝達されるリッチな意味的手がかりを見落としている。
具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。
これに続いて、不均一な入力間の画像推定のモデリングを目的とした、きめ細かいマルチモーダル融合モジュールを実装した。
論文 参考訳(メタデータ) (2023-12-30T15:24:50Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Contrastive Representation Learning for Gaze Estimation [8.121462458089143]
ガゼコントラスト学習(Gaze Contrastive Learning, GazeCLR)という,視線推定のためのコントラスト表現学習フレームワークを提案する。
その結果, GazeCLR は領域間視線推定の性能を向上し,17.2% の相対的改善が得られた。
GazeCLRフレームワークは、数ショット評価のための最先端の表現学習手法と競合する。
論文 参考訳(メタデータ) (2022-10-24T17:01:18Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。