論文の概要: Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model
- arxiv url: http://arxiv.org/abs/2412.21080v1
- Date: Mon, 30 Dec 2024 16:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:05:57.075253
- Title: Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model
- Title(参考訳): Vinci:Egocentric Vision-Languageモデルに基づくリアルタイム体操型スマートアシスタント
- Authors: Yifei Huang, Jilan Xu, Baoqi Pei, Yuping He, Guo Chen, Lijin Yang, Xinyuan Chen, Yaohui Wang, Zheng Nie, Jinyao Liu, Guoshun Fan, Dechen Lin, Fang Fang, Kunpeng Li, Chang Yuan, Yali Wang, Yu Qiao, Limin Wang,
- Abstract要約: 我々は、エゴセントリックな視覚言語モデルに基づいて構築されたリアルタイムエンボディ型スマートアシスタントであるVinciを紹介する。
ヴィンチは「常に」モードで動作し、環境を継続的に観察してシームレスな相互作用と補助を提供する。
我々は、アップロードされたビデオをテストするためのデモWebプラットフォームとともに、デバイス開発のための完全な実装をリリースする。
- 参考スコア(独自算出の注目度): 49.90916095152366
- License:
- Abstract: We introduce Vinci, a real-time embodied smart assistant built upon an egocentric vision-language model. Designed for deployment on portable devices such as smartphones and wearable cameras, Vinci operates in an "always on" mode, continuously observing the environment to deliver seamless interaction and assistance. Users can wake up the system and engage in natural conversations to ask questions or seek assistance, with responses delivered through audio for hands-free convenience. With its ability to process long video streams in real-time, Vinci can answer user queries about current observations and historical context while also providing task planning based on past interactions. To further enhance usability, Vinci integrates a video generation module that creates step-by-step visual demonstrations for tasks that require detailed guidance. We hope that Vinci can establish a robust framework for portable, real-time egocentric AI systems, empowering users with contextual and actionable insights. We release the complete implementation for the development of the device in conjunction with a demo web platform to test uploaded videos at https://github.com/OpenGVLab/vinci.
- Abstract(参考訳): 我々は、エゴセントリックな視覚言語モデルに基づいて構築されたリアルタイムエンボディ型スマートアシスタントであるVinciを紹介する。
スマートフォンやウェアラブルカメラなどのポータブルデバイスにデプロイするために設計されたVinciは、常時オンモードで動作し、環境を継続的に観察し、シームレスなインタラクションとアシストを提供する。
ユーザーはシステムを起動して、自然な会話をしたり、質問したり助けを求めたりできる。
長時間のビデオストリームをリアルタイムで処理できる機能により、Vinciは、過去のインタラクションに基づいたタスクプランニングを提供しながら、現在の観察と過去のコンテキストに関するユーザの問い合わせに答えることができる。
ユーザビリティをさらに向上するため、Vinciでは、詳細なガイダンスを必要とするタスクに対して、ステップバイステップの視覚的なデモを生成するビデオ生成モジュールを統合している。
私たちは、VinciがポータブルでリアルタイムなエゴセントリックなAIシステムのための堅牢なフレームワークを確立し、コンテキストとアクション可能な洞察をユーザに提供することを望んでいます。
デバイス開発のための完全な実装をデモWebプラットフォームとともにリリースし、アップロードしたビデオをhttps://github.com/OpenGVLab/vinci.comでテストする。
関連論文リスト
- Turn-by-Turn Indoor Navigation for the Visually Impaired [0.0]
室内環境のナビゲーションは視覚障害者にとって重要な課題である。
本稿では,カメラを搭載したスマートフォンのみを用いた建物内部のターンバイターンナビゲーションシステムを提案する。
複雑な屋内空間を利用者に正確に案内するシステムの有効性について予備評価を行った。
論文 参考訳(メタデータ) (2024-10-25T20:16:38Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - DRISHTI: Visual Navigation Assistant for Visually Impaired [0.0]
盲目で視覚障害者(BVI)は、自分の環境に関する情報を手動で支援する必要があるため、課題に直面します。
この研究で我々は、安価で高性能なアイウェアアシストデバイスDRISHTIの開発に向けて、最初の一歩を踏み出した。
論文 参考訳(メタデータ) (2023-03-13T20:10:44Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。