論文の概要: GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual
AI for Smart Eyewear
- arxiv url: http://arxiv.org/abs/2401.17217v2
- Date: Wed, 31 Jan 2024 05:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 11:24:42.476045
- Title: GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual
AI for Smart Eyewear
- Title(参考訳): GazeGPT: スマートアイウェアのための注視コンテキストAIによる人間の能力向上
- Authors: Robert Konrad, Nitish Padmanaban, J. Gabriel Buckmaster, Kevin C.
Boyle, Gordon Wetzstein
- Abstract要約: 本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。
GazeGPTは、視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。
我々は、この視線移入機構が代替手段よりも高速で高精度なポインティング機構であることが示している。
- 参考スコア(独自算出の注目度): 30.71112461604336
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (LMMs) excel in world knowledge and
problem-solving abilities. Through the use of a world-facing camera and
contextual AI, emerging smart accessories aim to provide a seamless interface
between humans and LMMs. Yet, these wearable computing systems lack an
understanding of the user's attention. We introduce GazeGPT as a new user
interaction paradigm for contextual AI. GazeGPT uses eye tracking to help the
LMM understand which object in the world-facing camera view a user is paying
attention to. Using extensive user evaluations, we show that this
gaze-contingent mechanism is a faster and more accurate pointing mechanism than
alternatives; that it augments human capabilities by significantly improving
their accuracy in a dog-breed classification task; and that it is consistently
ranked as more natural than head- or body-driven selection mechanisms for
contextual AI. Moreover, we prototype a variety of application scenarios that
suggest GazeGPT could be of significant value to users as part of future
AI-driven personal assistants.
- Abstract(参考訳): マルチモーダル大言語モデル(LMM)は、世界の知識と問題解決能力に優れる。
世界向けカメラとコンテキストAIを使うことで、新興のスマートアクセサリーは人間とLMM間のシームレスなインターフェースを提供することを目指している。
しかし、これらのウェアラブルコンピューティングシステムは、ユーザの注意を理解できない。
本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。
GazeGPTは視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。
広汎なユーザ評価を用いて、この視線一致機構は代替手段よりも高速で精度の高いポインティング機構であり、犬種分類タスクにおける精度を大幅に向上することで人間の能力を増強し、コンテキストAIの頭部や身体駆動の選択メカニズムよりも常に自然と位置づけられていることを示す。
さらに、将来のAI駆動のパーソナルアシスタントの一部として、GazeGPTがユーザにとって重要な価値を持つ可能性があることを示唆する、さまざまなアプリケーションシナリオをプロトタイプします。
関連論文リスト
- Comprehensive Cognitive LLM Agent for Smartphone GUI Automation [69.32269322774543]
大規模言語モデル(LLM)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
我々は、包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチで、包括的包括的アンダーラインAgent(CoCo-Agent)を提案する。
本稿では, AITW と META-GUI ベンチマークにおいて, 現実的なシナリオにおいて有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Prompt-to-OS (P2OS): Revolutionizing Operating Systems and
Human-Computer Interaction with Integrated AI Generative Models [10.892991111926573]
本稿では,従来のオペレーティングシステムの概念に革命をもたらす,人間とコンピュータのインタラクションのためのパラダイムを提案する。
この革新的なフレームワークでは、マシンに発行されるユーザリクエストは、生成AIモデルの相互接続エコシステムによって処理される。
このビジョンの概念は、プライバシ、セキュリティ、信頼性、生成モデルの倫理的利用など、重要な課題を提起する。
論文 参考訳(メタデータ) (2023-10-07T17:16:34Z) - Large Language Models Empowered Autonomous Edge AI for Connected
Intelligence [51.269276328087855]
エッジ人工知能(Edge AI)は、コネクテッドインテリジェンスを実現するための有望なソリューションである。
この記事では、ユーザのさまざまな要件を満たすために自動的に組織化し、適応し、最適化する、自律的なエッジAIシステムのビジョンを示す。
論文 参考訳(メタデータ) (2023-07-06T05:16:55Z) - Towards AGI in Computer Vision: Lessons Learned from GPT and Large
Language Models [98.72986679502871]
大規模言語モデル(LLM)を利用したチャットシステムが出現し、人工知能(AGI)を実現するための有望な方向へと急速に成長する
しかし、コンピュータビジョン(CV)におけるAGIへの道のりは未だに不明である。
CVアルゴリズムを世界規模で対話可能な環境に配置し、その動作に関する将来のフレームを予測するための事前トレーニングを行い、さまざまなタスクをこなすための命令で微調整するパイプラインを想像する。
論文 参考訳(メタデータ) (2023-06-14T17:15:01Z) - DetGPT: Detect What You Need via Reasoning [33.00345609506097]
我々は、推論に基づくオブジェクト検出と呼ばれる、オブジェクト検出のための新しいパラダイムを導入する。
特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能である。
提案手法はDetGPTと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を利用する。
論文 参考訳(メタデータ) (2023-05-23T15:37:28Z) - HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging
Face [85.25054021362232]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を示した。
LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。
本稿では,機械学習コミュニティのさまざまなAIモデルを接続するLLMエージェントであるHuggingGPTを紹介する。
論文 参考訳(メタデータ) (2023-03-30T17:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。