論文の概要: VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI
- arxiv url: http://arxiv.org/abs/2410.11623v1
- Date: Tue, 15 Oct 2024 14:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:45.901284
- Title: VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI
- Title(参考訳): VidEgoThink: 体操AIのエゴセントリックビデオ理解能力を評価する
- Authors: Sijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu,
- Abstract要約: VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
- 参考スコア(独自算出の注目度): 17.763461523794806
- License:
- Abstract: Recent advancements in Multi-modal Large Language Models (MLLMs) have opened new avenues for applications in Embodied AI. Building on previous work, EgoThink, we introduce VidEgoThink, a comprehensive benchmark for evaluating egocentric video understanding capabilities. To bridge the gap between MLLMs and low-level control in Embodied AI, we design four key interrelated tasks: video question-answering, hierarchy planning, visual grounding and reward modeling. To minimize manual annotation costs, we develop an automatic data generation pipeline based on the Ego4D dataset, leveraging the prior knowledge and multimodal capabilities of GPT-4o. Three human annotators then filter the generated data to ensure diversity and quality, resulting in the VidEgoThink benchmark. We conduct extensive experiments with three types of models: API-based MLLMs, open-source image-based MLLMs, and open-source video-based MLLMs. Experimental results indicate that all MLLMs, including GPT-4o, perform poorly across all tasks related to egocentric video understanding. These findings suggest that foundation models still require significant advancements to be effectively applied to first-person scenarios in Embodied AI. In conclusion, VidEgoThink reflects a research trend towards employing MLLMs for egocentric vision, akin to human capabilities, enabling active observation and interaction in the complex real-world environments.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、エンボディードAIにおける応用のための新たな道を開いた。
以前の研究であるEgoThinkに基づいて、エゴセントリックなビデオ理解能力を評価するための総合的なベンチマークであるVidEgoThinkを紹介した。
Embodied AIにおけるMLLMと低レベル制御のギャップを埋めるために、ビデオ質問応答、階層計画、ビジュアルグラウンド、報酬モデリングの4つの重要な相互関連タスクを設計する。
手動アノテーションのコストを最小限に抑えるため,GPT-4oの事前知識とマルチモーダル機能を活用し,Ego4Dデータセットに基づく自動データ生成パイプラインを開発した。
3人のアノテータが生成されたデータをフィルタして、多様性と品質を保証する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
GPT-4oを含むすべてのMLLMは、エゴセントリックなビデオ理解に関連するすべてのタスクにおいて、性能が劣っていることを示す実験結果が得られた。
これらの結果から, 基礎モデルでは, Embodied AIにおける一対一のシナリオに効果的に適用するには, 重要な進歩が必要であることが示唆された。
結論として、VidEgoThinkは自我中心の視覚にMLLMを採用する研究トレンドを反映している。
関連論文リスト
- Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques [9.248637518957445]
本稿では,視覚言語モデル(VLM)に関する基本理論を概観し,リモートセンシングで構築したデータセットを要約する。
本稿では,VLMのコアコンポーネントに応じて,改善手法を3つの主要部品に分類し,それらの方法の詳細な紹介と比較を行う。
論文 参考訳(メタデータ) (2024-10-15T13:28:55Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EAGLE: Egocentric AGgregated Language-video Engine [34.60423566630983]
我々は,Eagle(Egocentric AGgregated Language-video Engine)モデルとEagle-400Kデータセットを導入し,エゴセントリックなビデオ理解タスクを統合する統一フレームワークを提供する。
エゴセントリックなビデオ分析は、一人称視点から人間の活動や意図を理解するための新たな洞察をもたらす。
論文 参考訳(メタデータ) (2024-09-26T04:17:27Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding [44.79843213164787]
身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。
本稿では,ビデオキャプションにおけるVLMのトレーニングや,エゴセントリックなビデオに特有の質問応答を行うためのEgocentric Video Understanding dataset(EVUD)を紹介する。
本稿では,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:14:14Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。