論文の概要: AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding
- arxiv url: http://arxiv.org/abs/2406.13807v1
- Date: Wed, 19 Jun 2024 20:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:25:37.986334
- Title: AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding
- Title(参考訳): AlanaVLM:エゴセントリックビデオ理解のためのマルチモーダル・エンボディードAIファンデーションモデル
- Authors: Alessandro Suglia, Claudio Greco, Katie Baker, Jose L. Part, Ioannis Papaionnou, Arash Eshghi, Ioannis Konstas, Oliver Lemon,
- Abstract要約: 身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。
本稿では、ビデオキャプションにおけるVLMのトレーニングと、エゴセントリックなビデオに特有の質問応答タスクのためのEgocentric Video Understanding dataset(EVUD)を紹介する。
- 参考スコア(独自算出の注目度): 44.383825914203534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI personal assistants deployed via robots or wearables require embodied understanding to collaborate with humans effectively. However, current Vision-Language Models (VLMs) primarily focus on third-person view videos, neglecting the richness of egocentric perceptual experience. To address this gap, we propose three key contributions. First, we introduce the Egocentric Video Understanding Dataset (EVUD) for training VLMs on video captioning and question answering tasks specific to egocentric videos. Second, we present AlanaVLM, a 7B parameter VLM trained using parameter-efficient methods on EVUD. Finally, we evaluate AlanaVLM's capabilities on OpenEQA, a challenging benchmark for embodied video question answering. Our model achieves state-of-the-art performance, outperforming open-source models including strong Socratic models using GPT-4 as a planner by 3.6%. Additionally, we outperform Claude 3 and Gemini Pro Vision 1.0 and showcase competitive results compared to Gemini Pro 1.5 and GPT-4V, even surpassing the latter in spatial reasoning. This research paves the way for building efficient VLMs that can be deployed in robots or wearables, leveraging embodied video understanding to collaborate seamlessly with humans in everyday tasks, contributing to the next generation of Embodied AI
- Abstract(参考訳): ロボットやウェアラブルを介してデプロイされるAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
しかしながら、現在のVLM(Vision-Language Models)は、主に、エゴセントリックな知覚体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。
このギャップに対処するために、我々は3つの重要な貢献を提案する。
まず,Egocentric Video Understanding Dataset (EVUD)を導入し,ビデオキャプションにおけるVLMのトレーニングと,egocentric Video特有の質問応答タスクについて紹介する。
第2に,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
最後に,OpenEQA 上での AlanaVLM の機能評価を行った。
提案モデルでは,GPT-4をプランナとして用いたソクラティックモデルを含むオープンソースモデルの性能を3.6%向上させる。
さらに、我々はClaude 3とGemini Pro Vision 1.0を上回り、Gemini Pro 1.5とGPT-4Vと比較して、空間的推論では後者を上回ります。
この研究は、ロボットやウェアラブルにデプロイ可能な効率的なVLMの構築方法を確立し、エンボディドビデオ理解を活用して、日常的なタスクにおいて人間とシームレスにコラボレーションし、次世代のEmbodied AIに寄与する。
関連論文リスト
- VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition [48.686183248092476]
GPT4Egoは、ZS-EAR向けの単純だが驚くほど強力なVLMフレームワークである。
GPT4Egoは3つの大規模エゴセントリックビデオベンチマークにおいて既存のVLMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-01-18T15:04:46Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models [21.410065053609877]
視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
論文 参考訳(メタデータ) (2023-11-27T07:44:25Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。