論文の概要: DiffGaze: A Diffusion Model for Continuous Gaze Sequence Generation on 360° Images
- arxiv url: http://arxiv.org/abs/2403.17477v1
- Date: Tue, 26 Mar 2024 08:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 16:16:34.241628
- Title: DiffGaze: A Diffusion Model for Continuous Gaze Sequence Generation on 360° Images
- Title(参考訳): DiffGaze:360度画像を用いた連続的な注視系列生成のための拡散モデル
- Authors: Chuhan Jiao, Yao Wang, Guanhua Zhang, Mihai Bâce, Zhiming Hu, Andreas Bulling,
- Abstract要約: DiffGazeは、360deg画像上で、現実的で多様な連続した人間の視線シーケンスを生成する新しい方法である。
評価の結果,DiffGazeはすべてのタスクにおいて最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 17.714378486267055
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present DiffGaze, a novel method for generating realistic and diverse continuous human gaze sequences on 360{\deg} images based on a conditional score-based denoising diffusion model. Generating human gaze on 360{\deg} images is important for various human-computer interaction and computer graphics applications, e.g. for creating large-scale eye tracking datasets or for realistic animation of virtual humans. However, existing methods are limited to predicting discrete fixation sequences or aggregated saliency maps, thereby neglecting crucial parts of natural gaze behaviour. Our method uses features extracted from 360{\deg} images as condition and uses two transformers to model the temporal and spatial dependencies of continuous human gaze. We evaluate DiffGaze on two 360{\deg} image benchmarks for gaze sequence generation as well as scanpath prediction and saliency prediction. Our evaluations show that DiffGaze outperforms state-of-the-art methods on all tasks on both benchmarks. We also report a 21-participant user study showing that our method generates gaze sequences that are indistinguishable from real human sequences.
- Abstract(参考訳): DiffGazeは,360{\deg}画像上で,条件付きスコアに基づく認知拡散モデルに基づいて,現実的で多様な人間の視線シーケンスを生成する新しい手法である。
360{\deg}画像上の人間の視線を生成することは、大規模な視線追跡データセットの作成や仮想人間の現実的なアニメーションなど、様々な人-コンピュータインタラクションやコンピュータグラフィックスアプリケーションにとって重要である。
しかし、既存の手法は個別の固定シーケンスや集計されたサリエンシマップの予測に限られており、それによって自然の視線行動の重要な部分を無視している。
提案手法は,360{\deg}画像から抽出した特徴を条件として用い,連続した人間の視線の時間的および空間的依存性をモデル化するために2つのトランスフォーマーを用いた。
視線シーケンス生成のための2つの360{\deg}画像ベンチマークでDiffGazeを評価し,スキャンパスの予測とサリエンシの予測を行った。
評価の結果、DiffGazeは両ベンチマークの全てのタスクにおいて最先端の手法よりも優れていることがわかった。
また,21名の被験者を対象に,実際の人文列と区別不能な視線列を生成することを報告した。
関連論文リスト
- Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Look Hear: Gaze Prediction for Speech-directed Human Attention [49.81718760025951]
本研究は、人物が画像を見て、参照表現を聴いているときの注意の漸進的な予測に焦点を当てた。
我々は,参照表現において各単語が引き起こす人間の定着を予測できるリファラルトランスフォーマーモデル(ART)を開発した。
定量的および定性的な分析では、ARTはスキャンパス予測の既存の手法よりも優れているだけでなく、いくつかの人間の注意パターンを捉えているように見える。
論文 参考訳(メタデータ) (2024-07-28T22:35:08Z) - Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation [7.545077734926115]
本稿では,ビデオからの視線推定を目的とした,シンプルで斬新なディープラーニングモデルを提案する。
本手法では,ビデオ内の空間的ダイナミクスを追跡する空間的注意機構を用いる。
実験の結果,提案手法の有効性を確認し,データセット内設定とデータセット間設定の両方でその成功を実証した。
論文 参考訳(メタデータ) (2024-04-08T06:07:32Z) - GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction [10.982807572404166]
本稿では、人間の動きを生成するための新しい視線誘導型微分拡散モデルGazeMoを提案する。
提案手法はまず視線エンコーダを用いて視線と運動の特徴を抽出し,その特徴を融合させるグラフアテンションネットワークを用いる。
提案手法は,マルチモーダルな最終誤差の点で,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - MRGAN360: Multi-stage Recurrent Generative Adversarial Network for 360
Degree Image Saliency Prediction [10.541086214760497]
MRGAN360 と呼ばれる ODI のための多段階連続生成対向ネットワークを提案する。
各段階で、予測モデルは、元の画像と前のステージの出力を入力として、より正確な唾液マップを出力する。
相関関係をモデル化するために、隣接した予測段階間で繰り返しニューラルネットワークを用い、各段階の終端における判別器を利用して出力唾液マップを監督する。
論文 参考訳(メタデータ) (2023-03-15T11:15:03Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - GazeOnce: Real-Time Multi-Person Gaze Estimation [18.16091280655655]
外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。
近年の深層学習に基づくアプローチは優れた性能を示すが,複数対人視線をリアルタイムに出力することはできない。
画像中の複数の顔に対する視線方向を同時に予測できるGazeOnceを提案する。
論文 参考訳(メタデータ) (2022-04-20T14:21:47Z) - Non-Homogeneous Haze Removal via Artificial Scene Prior and
Bidimensional Graph Reasoning [52.07698484363237]
本研究では,人工シーンの前置と2次元グラフ推論による不均質なヘイズ除去ネットワーク(nhrn)を提案する。
本手法は,単一画像デハジングタスクとハイザイ画像理解タスクの両方において,最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-04-05T13:04:44Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。