論文の概要: LifeEval: A Multimodal Benchmark for Assistive AI in Egocentric Daily Life Tasks
- arxiv url: http://arxiv.org/abs/2603.00490v1
- Date: Sat, 28 Feb 2026 06:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.223177
- Title: LifeEval: A Multimodal Benchmark for Assistive AI in Egocentric Daily Life Tasks
- Title(参考訳): LifeEval:エゴセントリックな日常業務における補助AIのためのマルチモーダルベンチマーク
- Authors: Hengjian Gao, Kaiwei Zhang, Shibo Wang, Mingjie Chen, Qihang Cao, Xianfeng Wang, Yucheng Zhu, Xiongkuo Min, Wei Sun, Dandan Zhu, Guangtao Zhai,
- Abstract要約: LifeEvalは、リアルタイムでタスク指向の人間とAIのコラボレーションを評価するために設計されたマルチモーダルベンチマークである。
LifeEvalは、タスク指向の全体的評価、連続したファーストパーソンストリームからのエゴセントリックなリアルタイム認識、自然な対話による人間と人間の協力的な相互作用の3つの重要な側面を強調している。
- 参考スコア(独自算出の注目度): 71.05217306468857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Multimodal Large Language Models (MLLMs) marks a significant step toward artificial general intelligence, offering great potential for augmenting human capabilities. However, their ability to provide effective assistance in dynamic, real-world environments remains largely underexplored. Existing video benchmarks predominantly assess passive understanding through retrospective analysis or isolated perception tasks, failing to capture the interactive and adaptive nature of real-time user assistance. To bridge this gap, we introduce LifeEval, a multimodal benchmark designed to evaluate real-time, task-oriented human-AI collaboration in daily life from an egocentric perspective. LifeEval emphasizes three key aspects: task-oriented holistic evaluation, egocentric real-time perception from continuous first-person streams, and human-assistant collaborative interaction through natural dialogues. Constructed via a rigorous annotation pipeline, the benchmark comprises 4,075 high-quality question-answer pairs across 6 core capability dimensions. Extensive evaluations of 26 state-of-the-art MLLMs on LifeEval reveal substantial challenges in achieving timely, effective and adaptive interaction, highlighting essential directions for advancing human-centered interactive intelligence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩は、人工知能への重要な一歩であり、人間の能力を増強する大きな可能性を秘めている。
しかし、動的で現実世界の環境に効果的な支援を提供する能力は、いまだに未発見のままである。
既存のビデオベンチマークは、主に、振り返り分析や孤立した知覚タスクによる受動的理解を評価し、リアルタイムユーザアシストのインタラクティブで適応的な性質を捉えていない。
このギャップを埋めるために、私たちは、エゴセントリックな視点から、日常生活におけるリアルタイムなタスク指向のヒューマンAIコラボレーションを評価するために設計されたマルチモーダルベンチマークであるLifeEvalを紹介します。
LifeEvalは、タスク指向の全体的評価、連続したファーストパーソンストリームからのエゴセントリックなリアルタイム認識、自然な対話による人間と人間の協力的な相互作用の3つの重要な側面を強調している。
厳密なアノテーションパイプラインを通じて構築されたこのベンチマークは、6コア機能ディメンジョンにわたる4,075の高品質な質問応答ペアで構成されている。
26の最先端MLLMのLifeEvalに対する広範囲な評価は、タイムリーで効果的で適応的なインタラクションを実現する上で大きな課題を示し、人間中心のインタラクティブインテリジェンスを前進させる上で不可欠な方向を強調している。
関連論文リスト
- Proact-VL: A Proactive VideoLLM for Real-Time AI Companions [52.23988809605433]
自動評価のために選択された2つのゲームシナリオ,コメンテータとガイドを通じて,AIコンパニオンをインスタンス化する。
Proact-VLは,マルチモーダル言語モデルを人間のような環境認識とインタラクションが可能な,能動的,リアルタイムな対話エージェントに形成するフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T19:02:46Z) - EgoEMS: A High-Fidelity Multimodal Egocentric Dataset for Cognitive Assistance in Emergency Medical Services [3.0776354206437664]
EgoEMSは、最初のエンドツーエンド、高忠実、マルチモーダル、マルチパーソンのデータセットで、20時間以上の現実的、手続き的 EMS アクティビティをキャプチャする。
EgoEMSは、EMSの専門家と共同で開発され、国家標準に従って、オープンソースで低コストで複製可能なデータ収集システムを使用してキャプチャされる。
実時間マルチモーダルキーステップ認識と行動品質推定のためのベンチマークスイートを提案し,EMSのためのAI支援ツールの開発に不可欠である。
論文 参考訳(メタデータ) (2025-11-13T02:55:40Z) - TeleEgo: Benchmarking Egocentric AI Assistants in the Wild [55.53194302888826]
実世界のエゴセントリックなAIアシスタントは、マルチモーダル入力(ビデオ、オーディオ、テキスト)を処理しなければならない
我々は、エゴセントリックなAIアシスタントを評価するために、長いデュレーション、ストリーミング、オムニモーダルのベンチマークであるtextbfTeleEgoを紹介した。
このデータセットは、4つのドメインにわたる同期されたエゴセントリックなビデオ、オーディオ、テキストの参加者あたり14時間以上を特徴としている。
論文 参考訳(メタデータ) (2025-10-28T01:24:24Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions [36.010107260144586]
SoMi-ToMベンチマークは,マルチエージェント複合社会相互作用におけるマルチパースペクティブToMを評価するために設計されている。
我々は,35人の第三者視点映像,633人の一人称視点画像,1225人の専門家による複数選択質問を含む挑戦的なデータセットを構築した。
その結果,SoMi-ToMではLVLMがヒトよりも有意に低下することが判明した。
論文 参考訳(メタデータ) (2025-06-29T00:54:13Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。