論文の概要: Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following
- arxiv url: http://arxiv.org/abs/2406.02774v2
- Date: Thu, 18 Jul 2024 16:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:32:20.283768
- Title: Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following
- Title(参考訳): 半教師付き迷路追従に対する拡散精製VQAアノテーション
- Authors: Qiaomu Miao, Alexandros Graikos, Jingwei Zhang, Sounak Mondal, Minh Hoai, Dimitris Samaras,
- Abstract要約: 訓練用視線モデルには、人間のアノテータによって注釈付けされた視線目標座標を持つ多数の画像が必要である。
タスクに2つの新しい前処理を導入することで、視線追跡のための最初の半教師付き手法を提案する。
提案手法は,GazeFollow画像データセットに基づく単純な擬似アノテーション生成ベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 74.30960564603917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training gaze following models requires a large number of images with gaze target coordinates annotated by human annotators, which is a laborious and inherently ambiguous process. We propose the first semi-supervised method for gaze following by introducing two novel priors to the task. We obtain the first prior using a large pretrained Visual Question Answering (VQA) model, where we compute Grad-CAM heatmaps by `prompting' the VQA model with a gaze following question. These heatmaps can be noisy and not suited for use in training. The need to refine these noisy annotations leads us to incorporate a second prior. We utilize a diffusion model trained on limited human annotations and modify the reverse sampling process to refine the Grad-CAM heatmaps. By tuning the diffusion process we achieve a trade-off between the human annotation prior and the VQA heatmap prior, which retains the useful VQA prior information while exhibiting similar properties to the training data distribution. Our method outperforms simple pseudo-annotation generation baselines on the GazeFollow image dataset. More importantly, our pseudo-annotation strategy, applied to a widely used supervised gaze following model (VAT), reduces the annotation need by 50%. Our method also performs the best on the VideoAttentionTarget dataset.
- Abstract(参考訳): 視線を訓練するモデルには、人間のアノテーションによって注釈付けされた視線目標座標を持つ多数の画像が必要であり、これは退屈で本質的に曖昧なプロセスである。
タスクに2つの新しい前処理を導入することで、視線追跡のための最初の半教師付き手法を提案する。
本稿では,VQAモデルを用いて事前学習を行い,次の質問に目を向けて,VQAモデルを用いてGrad-CAMヒートマップを'prompting'することで計算する。
これらのヒートマップはノイズがあり、訓練に適さない。
これらのノイズの多いアノテーションを洗練する必要があるため、私たちは2番目の前もって組み込むことができます。
我々は,限定された人間のアノテーションに基づいて訓練された拡散モデルを利用し,逆サンプリングプロセスを変更してGrad-CAMヒートマップを改良する。
拡散過程を調整することにより、人間のアノテーションとVQAのヒートマップとのトレードオフを実現し、トレーニングデータ分布に類似した特性を示しながら、有用なVQAの事前情報を保持する。
提案手法は,GazeFollow画像データセットに基づく単純な擬似アノテーション生成ベースラインよりも優れている。
さらに、VATモデル(VAT)に広く用いられている擬似アノテーション戦略により、アノテーションの必要性を50%低減する。
提案手法は,VideoAttentionTargetデータセット上でも最良である。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。
提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文 参考訳(メタデータ) (2024-05-22T15:04:06Z) - Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation [7.545077734926115]
本稿では,ビデオからの視線推定を目的とした,シンプルで斬新なディープラーニングモデルを提案する。
本手法では,ビデオ内の空間的ダイナミクスを追跡する空間的注意機構を用いる。
実験の結果,提案手法の有効性を確認し,データセット内設定とデータセット間設定の両方でその成功を実証した。
論文 参考訳(メタデータ) (2024-04-08T06:07:32Z) - Enhancing Generalization in Medical Visual Question Answering Tasks via
Gradient-Guided Model Perturbation [16.22199565010318]
本稿では,事前学習と微調整の両段階における多モードモデルの視覚エンコーダに勾配誘導摂動を組み込む手法を提案する。
その結果,訓練前の画像キャプションデータセットが大幅に小さくても,本手法は競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-05T06:57:37Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。