論文の概要: Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model
- arxiv url: http://arxiv.org/abs/2412.21080v1
- Date: Mon, 30 Dec 2024 16:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 22:07:02.825313
- Title: Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model
- Title(参考訳): Vinci:Egocentric Vision-Languageモデルに基づくリアルタイム体操型スマートアシスタント
- Authors: Yifei Huang, Jilan Xu, Baoqi Pei, Yuping He, Guo Chen, Lijin Yang, Xinyuan Chen, Yaohui Wang, Zheng Nie, Jinyao Liu, Guoshun Fan, Dechen Lin, Fang Fang, Kunpeng Li, Chang Yuan, Yali Wang, Yu Qiao, Limin Wang,
- Abstract要約: 我々は、エゴセントリックな視覚言語モデルに基づいて構築されたリアルタイムエンボディ型スマートアシスタントであるVinciを紹介する。
ヴィンチは「常に」モードで動作し、環境を継続的に観察してシームレスな相互作用と補助を提供する。
我々は、アップロードされたビデオをテストするためのデモWebプラットフォームとともに、デバイス開発のための完全な実装をリリースする。
- 参考スコア(独自算出の注目度): 49.90916095152366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Vinci, a real-time embodied smart assistant built upon an egocentric vision-language model. Designed for deployment on portable devices such as smartphones and wearable cameras, Vinci operates in an "always on" mode, continuously observing the environment to deliver seamless interaction and assistance. Users can wake up the system and engage in natural conversations to ask questions or seek assistance, with responses delivered through audio for hands-free convenience. With its ability to process long video streams in real-time, Vinci can answer user queries about current observations and historical context while also providing task planning based on past interactions. To further enhance usability, Vinci integrates a video generation module that creates step-by-step visual demonstrations for tasks that require detailed guidance. We hope that Vinci can establish a robust framework for portable, real-time egocentric AI systems, empowering users with contextual and actionable insights. We release the complete implementation for the development of the device in conjunction with a demo web platform to test uploaded videos at https://github.com/OpenGVLab/vinci.
- Abstract(参考訳): 我々は、エゴセントリックな視覚言語モデルに基づいて構築されたリアルタイムエンボディ型スマートアシスタントであるVinciを紹介する。
スマートフォンやウェアラブルカメラなどのポータブルデバイスにデプロイするために設計されたVinciは、常時オンモードで動作し、環境を継続的に観察し、シームレスなインタラクションとアシストを提供する。
ユーザーはシステムを起動して、自然な会話をしたり、質問したり助けを求めたりできる。
長時間のビデオストリームをリアルタイムで処理できる機能により、Vinciは、過去のインタラクションに基づいたタスクプランニングを提供しながら、現在の観察と過去のコンテキストに関するユーザの問い合わせに答えることができる。
ユーザビリティをさらに向上するため、Vinciでは、詳細なガイダンスを必要とするタスクに対して、ステップバイステップの視覚的なデモを生成するビデオ生成モジュールを統合している。
私たちは、VinciがポータブルでリアルタイムなエゴセントリックなAIシステムのための堅牢なフレームワークを確立し、コンテキストとアクション可能な洞察をユーザに提供することを望んでいます。
デバイス開発のための完全な実装をデモWebプラットフォームとともにリリースし、アップロードしたビデオをhttps://github.com/OpenGVLab/vinci.comでテストする。
関連論文リスト
- A Human Digital Twin Architecture for Knowledge-based Interactions and Context-Aware Conversations [0.9580312063277943]
人工知能(AI)と機械学習(ML)の最近の進歩は、HAT(Human-Autonomy Teaming)の新しい機会を生み出している。
本稿では,知識報告,回答,レコメンデーションのためのLarge Language Models(LLM)を統合したリアルタイムHuman Digital Twin(HDT)アーキテクチャを提案する。
HDTは、トレーニングからデプロイメント、アフターアクションレビューまで、ミッションライフサイクル全体を通して統合された、視覚的で行動的に現実的なチームメンバーとして機能します。
論文 参考訳(メタデータ) (2025-04-04T03:56:26Z) - An Egocentric Vision-Language Model based Portable Real-time Smart Assistant [50.324455115241186]
我々は、ポータブルデバイス上でリアルタイムかつ包括的なAIアシストを提供するために設計された視覚言語システムであるVinciを紹介する。
Vinciは、エゴセントリックなビジョン基盤モデルと大きな言語モデルを統合する新しいモデルであるEgoVideo-VLを活用している。
vinciはハードウェアに依存しないため、スマートフォンやウェアラブルカメラなど、幅広いデバイスへのデプロイをサポートする。
論文 参考訳(メタデータ) (2025-03-06T09:33:46Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文 参考訳(メタデータ) (2024-12-28T07:26:39Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。