論文の概要: VIS-iTrack: Visual Intention through Gaze Tracking using Low-Cost Webcam
- arxiv url: http://arxiv.org/abs/2202.02587v1
- Date: Sat, 5 Feb 2022 16:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 15:33:32.376052
- Title: VIS-iTrack: Visual Intention through Gaze Tracking using Low-Cost Webcam
- Title(参考訳): VIS-iTrack: 低コストWebカメラによる視線追跡による視覚的注意
- Authors: Shahed Anzarus Sabab (1, 2, 3, 4, and 5), Mohammad Ridwan Kabir (1, 2,
and 3), Sayed Rizban Hussain (1, 2, and 3), Hasan Mahmud (1, 2, and 3), Md.
Kamrul Hasan (1, 2, and 3), Husne Ara Rubaiyeat (6) ((1) Systems and Software
Lab (SSL), (2) Department of Computer Science and Engineering, (3) Islamic
University of Technology (IUT), Gazipur, Bangladesh, (4) Department of
Computer Science, (5) University of Manitoba, Winnipeg, Canada, (6) National
University, Bangladesh.)
- Abstract要約: 人間の意図は、望ましい情報を得るための内的、精神的特徴である。
本研究では、リアルタイム視線データを低コストのレギュラーウェブカメラで分析することにより、そのような意図を判断する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human intention is an internal, mental characterization for acquiring desired
information. From interactive interfaces containing either textual or graphical
information, intention to perceive desired information is subjective and
strongly connected with eye gaze. In this work, we determine such intention by
analyzing real-time eye gaze data with a low-cost regular webcam. We extracted
unique features (e.g., Fixation Count, Eye Movement Ratio) from the eye gaze
data of 31 participants to generate a dataset containing 124 samples of visual
intention for perceiving textual or graphical information, labeled as either
TEXT or IMAGE, having 48.39% and 51.61% distribution, respectively. Using this
dataset, we analyzed 5 classifiers, including Support Vector Machine (SVM)
(Accuracy: 92.19%). Using the trained SVM, we investigated the variation of
visual intention among 30 participants, distributed in 3 age groups, and found
out that young users were more leaned towards graphical contents whereas older
adults felt more interested in textual ones. This finding suggests that
real-time eye gaze data can be a potential source of identifying visual
intention, analyzing which intention aware interactive interfaces can be
designed and developed to facilitate human cognition.
- Abstract(参考訳): 人間の意図は、望ましい情報を得るための内的、精神的特徴である。
テキスト情報またはグラフィカル情報を含む対話型インタフェースから、所望の情報を知覚する意図は主観的であり、目視と強く結びついている。
本研究では、リアルタイム視線データを低コストのレギュラーウェブカメラで分析することにより、そのような意図を決定する。
被験者31名の視線データから特徴量(固定数,眼球運動率など)を抽出し,TEXTまたは画像としてラベル付けされたテキスト情報や図形情報を知覚するための視覚意図のサンプル124点を含むデータセットを作成し,48.39%,51.61%の分布を示した。
このデータセットを用いて、サポートベクトルマシン(SVM)を含む5つの分類器(精度92.19%)を分析した。
学習したSVMを用いて,3年齢層に分布する30人の被験者の視覚意図の変化を調べたところ,若年者の方がグラフィカルな内容に傾倒しているのに対して,高齢者はテキスト的内容に強い関心を抱いていることがわかった。
この発見は、リアルタイム視線データが視覚的意図を識別し、人間の認知を促進するために、意図を意識した対話的インタフェースを設計・開発できるかを分析するための潜在的情報源になり得ることを示唆している。
関連論文リスト
- ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models [6.642042615005632]
視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
論文 参考訳(メタデータ) (2022-11-20T12:24:57Z) - An Efficient Point of Gaze Estimator for Low-Resolution Imaging Systems
Using Extracted Ocular Features Based Neural Architecture [2.8728982844941187]
本稿では、画面上の11.31degの視覚範囲に表示される9つの位置で、ユーザの視線を予測するためのニューラルネットワークベースのアーキテクチャを提案する。
視線追跡システムは身体障害者が組み込むことができ、限られた通信手段しか持たない人には最適である。
論文 参考訳(メタデータ) (2021-06-09T14:35:55Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Intentonomy: a Dataset and Study towards Human Intent Understanding [65.49299806821791]
視覚情報がどのように人間の意図を認識するかを分析することを目的として,ソーシャルメディア画像の背景にある意図について検討する。
インテント・データセットであるIntentonomyを導入し,14K画像で様々な日常シーンをカバーした。
次に、視覚情報、すなわち、対象と文脈が人間の動機理解に寄与するかどうかを体系的に研究する。
論文 参考訳(メタデータ) (2020-11-11T05:39:00Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。