論文の概要: An Egocentric Vision-Language Model based Portable Real-time Smart Assistant
- arxiv url: http://arxiv.org/abs/2503.04250v1
- Date: Thu, 06 Mar 2025 09:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:34.031633
- Title: An Egocentric Vision-Language Model based Portable Real-time Smart Assistant
- Title(参考訳): Egocentric Vision-Language Model を用いたポータブルリアルタイムスマートアシスタント
- Authors: Yifei Huang, Jilan Xu, Baoqi Pei, Yuping He, Guo Chen, Mingfang Zhang, Lijin Yang, Zheng Nie, Jinyao Liu, Guoshun Fan, Dechen Lin, Fang Fang, Kunpeng Li, Chang Yuan, Xinyuan Chen, Yaohui Wang, Yali Wang, Yu Qiao, Limin Wang,
- Abstract要約: 我々は、ポータブルデバイス上でリアルタイムかつ包括的なAIアシストを提供するために設計された視覚言語システムであるVinciを紹介する。
Vinciは、エゴセントリックなビジョン基盤モデルと大きな言語モデルを統合する新しいモデルであるEgoVideo-VLを活用している。
vinciはハードウェアに依存しないため、スマートフォンやウェアラブルカメラなど、幅広いデバイスへのデプロイをサポートする。
- 参考スコア(独自算出の注目度): 50.324455115241186
- License:
- Abstract: We present Vinci, a vision-language system designed to provide real-time, comprehensive AI assistance on portable devices. At its core, Vinci leverages EgoVideo-VL, a novel model that integrates an egocentric vision foundation model with a large language model (LLM), enabling advanced functionalities such as scene understanding, temporal grounding, video summarization, and future planning. To enhance its utility, Vinci incorporates a memory module for processing long video streams in real time while retaining contextual history, a generation module for producing visual action demonstrations, and a retrieval module that bridges egocentric and third-person perspectives to provide relevant how-to videos for skill acquisition. Unlike existing systems that often depend on specialized hardware, Vinci is hardware-agnostic, supporting deployment across a wide range of devices, including smartphones and wearable cameras. In our experiments, we first demonstrate the superior performance of EgoVideo-VL on multiple public benchmarks, showcasing its vision-language reasoning and contextual understanding capabilities. We then conduct a series of user studies to evaluate the real-world effectiveness of Vinci, highlighting its adaptability and usability in diverse scenarios. We hope Vinci can establish a new framework for portable, real-time egocentric AI systems, empowering users with contextual and actionable insights. Including the frontend, backend, and models, all codes of Vinci are available at https://github.com/OpenGVLab/vinci.
- Abstract(参考訳): 我々は、ポータブルデバイス上でリアルタイムかつ包括的なAIアシストを提供するために設計された視覚言語システムであるVinciを紹介する。
Vinciは、エゴセントリックなビジョン基盤モデルと大きな言語モデル(LLM)を統合する新しいモデルであるEgoVideo-VLを活用し、シーン理解、時間的接地、ビデオ要約、将来の計画などの高度な機能を実現する。
実用性を高めるために、Vinciは、コンテキスト履歴を保持しながら、長いビデオストリームをリアルタイムで処理するためのメモリモジュール、視覚行動デモを生成する生成モジュール、スキル獲得のための関連するハウツービデオを提供するエゴセントリックおよび第三者の視点を橋渡しする検索モジュールを組み込んだ。
特殊なハードウェアに依存している既存のシステムとは異なり、Vinciはハードウェアに依存しない。
実験では、まず複数の公開ベンチマークにおいて、EgoVideo-VLの優れた性能を実演し、その視覚言語推論と文脈理解能力を示す。
次に、Vinciの現実的な有効性を評価するために一連のユーザスタディを実施し、その適応性と多様なシナリオにおけるユーザビリティを強調します。
Vinciが、ポータブルでリアルタイムなエゴセントリックなAIシステムのための、新しいフレームワークを確立できることを願っている。
フロントエンド、バックエンド、モデルを含め、Vinciのすべてのコードはhttps://github.com/OpenGVLab/vinciで入手できる。
関連論文リスト
- Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model [49.90916095152366]
我々は、エゴセントリックな視覚言語モデルに基づいて構築されたリアルタイムエンボディ型スマートアシスタントであるVinciを紹介する。
ヴィンチは「常に」モードで動作し、環境を継続的に観察してシームレスな相互作用と補助を提供する。
我々は、アップロードされたビデオをテストするためのデモWebプラットフォームとともに、デバイス開発のための完全な実装をリリースする。
論文 参考訳(メタデータ) (2024-12-30T16:57:05Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Towards Long-Form Video Understanding [7.962725903399016]
本稿では,大規模データセット上での長文ビデオのモデリングと評価プロトコルの開発を行うフレームワークを提案する。
オブジェクト中心のトランスフォーマーに基づく新しいビデオ認識アーキテクチャは、7つの多様なタスクで大幅に向上する。
論文 参考訳(メタデータ) (2021-06-21T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。