論文の概要: CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model
- arxiv url: http://arxiv.org/abs/2403.05124v1
- Date: Fri, 8 Mar 2024 07:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:38:13.627274
- Title: CLIP-Gaze: Towards General Gaze Estimation via Visual-Linguistic Model
- Title(参考訳): CLIP-Gaze: 視覚言語モデルによる一般的な視線推定に向けて
- Authors: Pengwei Yin, Guanzhong Zeng, Jingjing Wang, Di Xie
- Abstract要約: 本稿では、事前学習された視覚言語モデルを用いて、その伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。
我々のフレームワークは、視線推定タスクに視覚・言語間の相互モダリティアプローチを利用した最初のものである。
- 参考スコア(独自算出の注目度): 13.890404285565225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze estimation methods often experience significant performance degradation
when evaluated across different domains, due to the domain gap between the
testing and training data. Existing methods try to address this issue using
various domain generalization approaches, but with little success because of
the limited diversity of gaze datasets, such as appearance, wearable, and image
quality. To overcome these limitations, we propose a novel framework called
CLIP-Gaze that utilizes a pre-trained vision-language model to leverage its
transferable knowledge. Our framework is the first to leverage the
vision-and-language cross-modality approach for gaze estimation task.
Specifically, we extract gaze-relevant feature by pushing it away from
gaze-irrelevant features which can be flexibly constructed via language
descriptions. To learn more suitable prompts, we propose a personalized context
optimization method for text prompt tuning. Furthermore, we utilize the
relationship among gaze samples to refine the distribution of gaze-relevant
features, thereby improving the generalization capability of the gaze
estimation model. Extensive experiments demonstrate the excellent performance
of CLIP-Gaze over existing methods on four cross-domain evaluations.
- Abstract(参考訳): 注視推定手法は、テストデータとトレーニングデータの間のドメインギャップにより、異なるドメイン間で評価された場合、大きなパフォーマンス劣化を経験することが多い。
既存の手法では、様々なドメインの一般化アプローチでこの問題に対処しようとするが、外観、ウェアラブル、画質など、視線データセットの多様性が限られているため、ほとんど成功していない。
このような制約を克服するために,事前学習された視覚言語モデルを用いて伝達可能な知識を活用するCLIP-Gazeという新しいフレームワークを提案する。
私たちのフレームワークは、視線推定タスクに視覚と言語による相互モダリティアプローチを利用する最初のフレームワークです。
具体的には,言語記述によって柔軟に構築できる視線関連機能から遠ざかることで,視線関連機能を抽出する。
より適切なプロンプトを学ぶために、テキストプロンプトチューニングのためのパーソナライズされたコンテキスト最適化手法を提案する。
さらに,視線サンプル間の関係を利用して視線特徴の分布を洗練し,視線推定モデルの一般化能力を向上させる。
4つのクロスドメイン評価において,CLIP-Gazeの既存手法よりも優れた性能を示した。
関連論文リスト
- Improving Domain Generalization on Gaze Estimation via Branch-out Auxiliary Regularization [3.3539987257923247]
ブランチアウト補助正規化(BAR)は、ターゲットドメインデータに直接アクセスすることなく、視線推定の一般化能力を高めるように設計されている。
Barは2つの補助的な整合性正規化ブランチを統合している。ひとつは環境変動に対処するために強化サンプルを使用するもので、もうひとつは、一貫した視線特徴の学習を促進するために、視線方向を正のソース領域サンプルと整列するものだ。
論文 参考訳(メタデータ) (2024-05-02T16:26:37Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Modeling State Shifting via Local-Global Distillation for Event-Frame Gaze Tracking [61.44701715285463]
本稿では,イベントデータとフレームデータの両方を用いた受動的視線推定の問題に取り組む。
我々は、現在の状態からいくつかの事前登録されたアンカー状態に移行する状態の定量化として、視線推定を再構成する。
大規模視線推定ネットワークを直接学習する代わりに,地域の専門家グループと学生ネットワークを連携させることにより,一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-03-31T03:30:37Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - GazeCLIP: Towards Enhancing Gaze Estimation via Text Guidance [9.639618473371083]
既存の視線推定手法は言語信号とCLIP特徴空間に埋め込まれた先行情報によって伝達されるリッチな意味的手がかりを見落としている。
具体的には、言語記述生成器を複雑に設計し、粗い方向の手がかりを持つテキスト信号を生成する。
これに続いて、不均一な入力間の画像推定のモデリングを目的とした、きめ細かいマルチモーダル融合モジュールを実装した。
論文 参考訳(メタデータ) (2023-12-30T15:24:50Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Contrastive Representation Learning for Gaze Estimation [8.121462458089143]
ガゼコントラスト学習(Gaze Contrastive Learning, GazeCLR)という,視線推定のためのコントラスト表現学習フレームワークを提案する。
その結果, GazeCLR は領域間視線推定の性能を向上し,17.2% の相対的改善が得られた。
GazeCLRフレームワークは、数ショット評価のための最先端の表現学習手法と競合する。
論文 参考訳(メタデータ) (2022-10-24T17:01:18Z) - PureGaze: Purifying Gaze Feature for Generalizable Gaze Estimation [12.076469954457007]
未知対象領域のクロスドメイン視線推定における領域一般化問題に取り組む。
具体的には,視線特徴の浄化による領域一般化を実現する。
視線を浄化するためのプラグアンドプレイ自己対向フレームワークを設計します。
論文 参考訳(メタデータ) (2021-03-24T13:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。