論文の概要: G-VOILA: Gaze-Facilitated Information Querying in Daily Scenarios
- arxiv url: http://arxiv.org/abs/2405.07652v1
- Date: Mon, 13 May 2024 11:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:55:08.897588
- Title: G-VOILA: Gaze-Facilitated Information Querying in Daily Scenarios
- Title(参考訳): G-VOILA: 日常シナリオにおける注視情報クエリ
- Authors: Zeyu Wang, Yuanchun Shi, Yuntao Wang, Yuchen Yao, Kun Yan, Yuhan Wang, Lei Ji, Xuhai Xu, Chun Yu,
- Abstract要約: 本稿では、G-VOILAという、新しい視線対応情報クエリーパラダイムを提案する。
G-VOILAは、より直感的なクエリプロセスを容易にするために、ユーザの視線、視野、音声ベースの自然言語クエリを相乗化する。
- 参考スコア(独自算出の注目度): 36.5550753978585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern information querying systems are progressively incorporating multimodal inputs like vision and audio. However, the integration of gaze -- a modality deeply linked to user intent and increasingly accessible via gaze-tracking wearables -- remains underexplored. This paper introduces a novel gaze-facilitated information querying paradigm, named G-VOILA, which synergizes users' gaze, visual field, and voice-based natural language queries to facilitate a more intuitive querying process. In a user-enactment study involving 21 participants in 3 daily scenarios (p = 21, scene = 3), we revealed the ambiguity in users' query language and a gaze-voice coordination pattern in users' natural query behaviors with G-VOILA. Based on the quantitative and qualitative findings, we developed a design framework for the G-VOILA paradigm, which effectively integrates the gaze data with the in-situ querying context. Then we implemented a G-VOILA proof-of-concept using cutting-edge deep learning techniques. A follow-up user study (p = 16, scene = 2) demonstrates its effectiveness by achieving both higher objective score and subjective score, compared to a baseline without gaze data. We further conducted interviews and provided insights for future gaze-facilitated information querying systems.
- Abstract(参考訳): 現代の情報クエリシステムは、視覚やオーディオといったマルチモーダルな入力を徐々に取り入れている。
しかし、視線追跡ウェアラブルによる視線統合は、ユーザーの意図と深く結びついており、ますますアクセスしやすくなっている。
本稿では、より直感的なクエリ処理を容易にするために、ユーザの視線、視野、音声に基づく自然言語クエリを相乗化する、G-VOILAという新しい視線対応情報クエリパラダイムを提案する。
日常的な3つのシナリオ(p = 21, scene = 3)における21人の参加者を対象に,ユーザの問合せ言語におけるあいまいさと,G-VOILAを用いたユーザの自然な問合せ行動における視線・声調調整パターンを明らかにした。
本研究では,G-VOILAパラダイムの設計枠組みを構築し,視線データとその場クエリのコンテキストを効果的に統合した。
次に,最先端の深層学習技術を用いたG-VOILA概念証明を実装した。
フォローアップユーザスタディ(p = 16, scene = 2)は、視線データのないベースラインと比較して、高い客観的スコアと主観的スコアの両方を達成することにより、その効果を実証する。
我々はさらにインタビューを行い、将来の視線対応情報クエリシステムに対する洞察を提供した。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - VERA: Generating Visual Explanations of Two-Dimensional Embeddings via Region Annotation [0.0]
Visual Explanations via Region (VERA) は2次元埋め込みの視覚的説明を生成する自動埋め込みアノテーション手法である。
VERAは、埋め込み空間内の異なる領域を特徴付ける情報的説明を生成し、ユーザがその埋め込み風景を一目で概観することができる。
実世界のデータセット上でのVERAの利用について説明するとともに,本手法の有効性を比較ユーザスタディで検証する。
論文 参考訳(メタデータ) (2024-06-07T10:23:03Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - A Convolutional Baseline for Person Re-Identification Using Vision and
Language Descriptions [24.794592610444514]
現実世界の監視シナリオでは、クエリされた人に関する視覚的な情報は頻繁に提供されない。
クロスエントロピー損失によって制御される2つのストリームディープ畳み込みニューラルネットワークフレームワークを示す。
学習した視覚表現は、単一のモダリティシステムと比較して、より堅牢で、検索時に22%向上する。
論文 参考訳(メタデータ) (2020-02-20T10:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。