論文の概要: EyeFormer: Predicting Personalized Scanpaths with Transformer-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.10163v2
- Date: Sun, 21 Apr 2024 03:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 20:37:54.747292
- Title: EyeFormer: Predicting Personalized Scanpaths with Transformer-Guided Reinforcement Learning
- Title(参考訳): EyeFormer: Transformer-Guided Reinforcement Learningによるパーソナライズされたスキャンパスの予測
- Authors: Yue Jiang, Zixin Guo, Hamed Rezazadegan Tavakoli, Luis A. Leiva, Antti Oulasvirta,
- Abstract要約: 視覚的ユーザインタフェースにおけるスキャンパスを予測する機械学習モデルであるEyeFormerを提案する。
我々のモデルは、いくつかのユーザ・スキャンパス・サンプルが与えられたとき、パーソナライズされた予測を生成するユニークな能力を持っている。
固定位置や持続時間を含む全スキャンパス情報を個人や様々な刺激タイプで予測することができる。
- 参考スコア(独自算出の注目度): 31.583764158565916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From a visual perception perspective, modern graphical user interfaces (GUIs) comprise a complex graphics-rich two-dimensional visuospatial arrangement of text, images, and interactive objects such as buttons and menus. While existing models can accurately predict regions and objects that are likely to attract attention ``on average'', so far there is no scanpath model capable of predicting scanpaths for an individual. To close this gap, we introduce EyeFormer, which leverages a Transformer architecture as a policy network to guide a deep reinforcement learning algorithm that controls gaze locations. Our model has the unique capability of producing personalized predictions when given a few user scanpath samples. It can predict full scanpath information, including fixation positions and duration, across individuals and various stimulus types. Additionally, we demonstrate applications in GUI layout optimization driven by our model. Our software and models will be publicly available.
- Abstract(参考訳): 視覚的視点から見ると、現代のグラフィカルユーザインタフェース(GUI)は、テキスト、画像、ボタンやメニューなどのインタラクティブなオブジェクトの複雑なグラフィックに富んだ2次元空間配置で構成されている。
既存のモデルは、'on average''に注意を惹きつける可能性のある領域やオブジェクトを正確に予測できるが、今のところ、個人に対してスキャンパスを予測できるスキャンパスモデルは存在しない。
このギャップを埋めるため、EyeFormerを導入し、Transformerアーキテクチャをポリシーネットワークとして活用し、視線位置を制御する深層強化学習アルゴリズムを誘導する。
我々のモデルは、いくつかのユーザ・スキャンパス・サンプルが与えられたとき、パーソナライズされた予測を生成するユニークな能力を持っている。
固定位置や持続時間を含む全スキャンパス情報を個人や様々な刺激タイプで予測することができる。
さらに、モデルによって駆動されるGUIレイアウト最適化のアプリケーションを実演する。
私たちのソフトウェアとモデルは公開されます。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Scanpath Prediction in Panoramic Videos via Expected Code Length
Minimization [27.06179638588126]
損失データ圧縮の原理に基づくスキャンパス予測のための新しい基準を提案する。
この基準は、トレーニングセットにおける量子化されたスキャンパスのコード長を最小化することを示唆している。
また、現実的な人間のようなスキャンパスを生成するために、PID(Paldical-Integrated-Integrated-Divative)コントローラベースのサンプリングも導入する。
論文 参考訳(メタデータ) (2023-05-04T04:10:47Z) - Interactive Visual Feature Search [8.255656003475268]
視覚特徴探索(Visual Feature Search)は,任意のCNNに適応可能な,インタラクティブな可視化技術である。
このツールを使うと、ユーザーは画像領域をハイライトし、最もよく似たモデル機能を持つデータセットから画像を検索できる。
我々は,医療画像や野生生物の分類など,様々な応用実験を行うことで,モデル行動の異なる側面を解明する方法を実証する。
論文 参考訳(メタデータ) (2022-11-28T04:39:03Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - A Simple and efficient deep Scanpath Prediction [6.294759639481189]
我々は、単純な完全な畳み込み回帰的な方法で、共通のディープラーニングアーキテクチャーを使用することの効率について検討する。
これらのモデルが2つのデータセットのスキャンパスをいかに予測できるかを実験する。
また、実験におけるパフォーマンスに基づいて、異なるレバレッジされたバックボーンアーキテクチャを比較して、どのアーキテクチャがタスクに最も適しているかを推定する。
論文 参考訳(メタデータ) (2021-12-08T22:43:45Z) - Scanpath Prediction on Information Visualisations [19.591855190022667]
本稿では,情報視覚化における視覚的満足度とスキャンパスの予測を学習するモデルを提案する。
一般的なMASSVISデータセット上で,様々な情報可視化要素に対する視線行動の詳細な解析を行う。
論文 参考訳(メタデータ) (2021-12-04T13:59:52Z) - A Variational Graph Autoencoder for Manipulation Action Recognition and
Prediction [1.1816942730023883]
シンボルシーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを提案する。
我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。
提案手法は,MANIACとMSRC-9の2つの異なるデータセット上で異なる最先端手法に対してベンチマークを行い,提案手法がより優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2021-10-25T21:40:42Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。