論文の概要: GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual
AI for Smart Eyewear
- arxiv url: http://arxiv.org/abs/2401.17217v2
- Date: Wed, 31 Jan 2024 05:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 11:24:42.476045
- Title: GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual
AI for Smart Eyewear
- Title(参考訳): GazeGPT: スマートアイウェアのための注視コンテキストAIによる人間の能力向上
- Authors: Robert Konrad, Nitish Padmanaban, J. Gabriel Buckmaster, Kevin C.
Boyle, Gordon Wetzstein
- Abstract要約: 本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。
GazeGPTは、視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。
我々は、この視線移入機構が代替手段よりも高速で高精度なポインティング機構であることが示している。
- 参考スコア(独自算出の注目度): 30.71112461604336
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (LMMs) excel in world knowledge and
problem-solving abilities. Through the use of a world-facing camera and
contextual AI, emerging smart accessories aim to provide a seamless interface
between humans and LMMs. Yet, these wearable computing systems lack an
understanding of the user's attention. We introduce GazeGPT as a new user
interaction paradigm for contextual AI. GazeGPT uses eye tracking to help the
LMM understand which object in the world-facing camera view a user is paying
attention to. Using extensive user evaluations, we show that this
gaze-contingent mechanism is a faster and more accurate pointing mechanism than
alternatives; that it augments human capabilities by significantly improving
their accuracy in a dog-breed classification task; and that it is consistently
ranked as more natural than head- or body-driven selection mechanisms for
contextual AI. Moreover, we prototype a variety of application scenarios that
suggest GazeGPT could be of significant value to users as part of future
AI-driven personal assistants.
- Abstract(参考訳): マルチモーダル大言語モデル(LMM)は、世界の知識と問題解決能力に優れる。
世界向けカメラとコンテキストAIを使うことで、新興のスマートアクセサリーは人間とLMM間のシームレスなインターフェースを提供することを目指している。
しかし、これらのウェアラブルコンピューティングシステムは、ユーザの注意を理解できない。
本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。
GazeGPTは視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。
広汎なユーザ評価を用いて、この視線一致機構は代替手段よりも高速で精度の高いポインティング機構であり、犬種分類タスクにおける精度を大幅に向上することで人間の能力を増強し、コンテキストAIの頭部や身体駆動の選択メカニズムよりも常に自然と位置づけられていることを示す。
さらに、将来のAI駆動のパーソナルアシスタントの一部として、GazeGPTがユーザにとって重要な価値を持つ可能性があることを示唆する、さまざまなアプリケーションシナリオをプロトタイプします。
関連論文リスト
- Heads Up eXperience (HUX): Always-On AI Companion for Human Computer Environment Interaction [0.5825410941577593]
Heads Up eXperience (HUX)は、デジタル環境と人間環境のギャップを埋めるように設計されたAIシステムである。
ユーザの視線を追跡し、周囲の環境を分析し、言語コンテキストを解釈することにより、システムはマルチモーダルデータをキャプチャし、強化する。
HUX AIは、スマートグラスと拡張現実ヘッドセットへの展開を念頭に置いて、日々の生活のための個人的で有用なAIコンパニオンになることを目指している。
論文 参考訳(メタデータ) (2024-07-28T13:15:51Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Large Language Models Empowered Autonomous Edge AI for Connected
Intelligence [51.269276328087855]
エッジ人工知能(Edge AI)は、コネクテッドインテリジェンスを実現するための有望なソリューションである。
この記事では、ユーザのさまざまな要件を満たすために自動的に組織化し、適応し、最適化する、自律的なエッジAIシステムのビジョンを示す。
論文 参考訳(メタデータ) (2023-07-06T05:16:55Z) - DetGPT: Detect What You Need via Reasoning [33.00345609506097]
我々は、推論に基づくオブジェクト検出と呼ばれる、オブジェクト検出のための新しいパラダイムを導入する。
特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能である。
提案手法はDetGPTと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を利用する。
論文 参考訳(メタデータ) (2023-05-23T15:37:28Z) - HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face [85.25054021362232]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を示した。
LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。
本稿では,機械学習コミュニティのさまざまなAIモデルを接続するLLMエージェントであるHuggingGPTを紹介する。
論文 参考訳(メタデータ) (2023-03-30T17:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。