Fugu-MT 論文翻訳(概要): GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual AI for Smart Eyewear

論文の概要: GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual AI for Smart Eyewear

arxiv url: http://arxiv.org/abs/2401.17217v2
Date: Wed, 31 Jan 2024 05:21:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 11:24:42.476045
Title: GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual AI for Smart Eyewear
Title（参考訳）: GazeGPT: スマートアイウェアのための注視コンテキストAIによる人間の能力向上
Authors: Robert Konrad, Nitish Padmanaban, J. Gabriel Buckmaster, Kevin C. Boyle, Gordon Wetzstein
Abstract要約: 本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。 GazeGPTは、視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。我々は、この視線移入機構が代替手段よりも高速で高精度なポインティング機構であることが示している。
参考スコア（独自算出の注目度）: 30.71112461604336
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multimodal large language models (LMMs) excel in world knowledge and problem-solving abilities. Through the use of a world-facing camera and contextual AI, emerging smart accessories aim to provide a seamless interface between humans and LMMs. Yet, these wearable computing systems lack an understanding of the user's attention. We introduce GazeGPT as a new user interaction paradigm for contextual AI. GazeGPT uses eye tracking to help the LMM understand which object in the world-facing camera view a user is paying attention to. Using extensive user evaluations, we show that this gaze-contingent mechanism is a faster and more accurate pointing mechanism than alternatives; that it augments human capabilities by significantly improving their accuracy in a dog-breed classification task; and that it is consistently ranked as more natural than head- or body-driven selection mechanisms for contextual AI. Moreover, we prototype a variety of application scenarios that suggest GazeGPT could be of significant value to users as part of future AI-driven personal assistants.
Abstract（参考訳）: マルチモーダル大言語モデル(LMM)は、世界の知識と問題解決能力に優れる。世界向けカメラとコンテキストAIを使うことで、新興のスマートアクセサリーは人間とLMM間のシームレスなインターフェースを提供することを目指している。しかし、これらのウェアラブルコンピューティングシステムは、ユーザの注意を理解できない。本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。 GazeGPTは視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。広汎なユーザ評価を用いて、この視線一致機構は代替手段よりも高速で精度の高いポインティング機構であり、犬種分類タスクにおける精度を大幅に向上することで人間の能力を増強し、コンテキストAIの頭部や身体駆動の選択メカニズムよりも常に自然と位置づけられていることを示す。さらに、将来のAI駆動のパーソナルアシスタントの一部として、GazeGPTがユーザにとって重要な価値を持つ可能性があることを示唆する、さまざまなアプリケーションシナリオをプロトタイプします。

関連論文リスト

Eye Gaze as a Signal for Conveying User Attention in Contextual AI Systems [6.910103624072253]
マルチモーダルAIシステムは、ユーザーとシステムの間の明示的な通信チャネルに依存している。ユーザの注意情報を伝えるためのウェアラブルアイトラッキングの可能性を探る。
論文参考訳（メタデータ） (2025-01-23T17:51:54Z)
AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文参考訳（メタデータ） (2024-12-28T07:26:39Z)
Heads Up eXperience (HUX): Always-On AI Companion for Human Computer Environment Interaction [0.5825410941577593]
Heads Up eXperience (HUX)は、デジタル環境と人間環境のギャップを埋めるように設計されたAIシステムである。ユーザの視線を追跡し、周囲の環境を分析し、言語コンテキストを解釈することにより、システムはマルチモーダルデータをキャプチャし、強化する。 HUX AIは、スマートグラスと拡張現実ヘッドセットへの展開を念頭に置いて、日々の生活のための個人的で有用なAIコンパニオンになることを目指している。
論文参考訳（メタデータ） (2024-07-28T13:15:51Z)
AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文参考訳（メタデータ） (2024-05-13T10:09:37Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文参考訳（メタデータ） (2023-12-22T17:34:01Z)
Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文参考訳（メタデータ） (2023-11-13T21:20:17Z)
Large Language Models Empowered Autonomous Edge AI for Connected Intelligence [51.269276328087855]
エッジ人工知能(Edge AI)は、コネクテッドインテリジェンスを実現するための有望なソリューションである。この記事では、ユーザのさまざまな要件を満たすために自動的に組織化し、適応し、最適化する、自律的なエッジAIシステムのビジョンを示す。
論文参考訳（メタデータ） (2023-07-06T05:16:55Z)
DetGPT: Detect What You Need via Reasoning [33.00345609506097]
我々は、推論に基づくオブジェクト検出と呼ばれる、オブジェクト検出のための新しいパラダイムを導入する。特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能である。提案手法はDetGPTと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を利用する。
論文参考訳（メタデータ） (2023-05-23T15:37:28Z)
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face [85.25054021362232]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を示した。 LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。本稿では,機械学習コミュニティのさまざまなAIモデルを接続するLLMエージェントであるHuggingGPTを紹介する。
論文参考訳（メタデータ） (2023-03-30T17:48:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。