論文の概要: TeleEgo: Benchmarking Egocentric AI Assistants in the Wild
- arxiv url: http://arxiv.org/abs/2510.23981v1
- Date: Tue, 28 Oct 2025 01:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.707328
- Title: TeleEgo: Benchmarking Egocentric AI Assistants in the Wild
- Title(参考訳): TeleEgo: 野生のエゴセントリックAIアシスタントのベンチマーク
- Authors: Jiaqi Yan, Ruilong Ren, Jingren Liu, Shuning Xu, Ling Wang, Yiheng Wang, Yun Wang, Long Zhang, Xiangyu Chen, Changzhi Sun, Jixiang Luo, Dell Zhang, Hao Sun, Chi Zhang, Xuelong Li,
- Abstract要約: 実世界のエゴセントリックなAIアシスタントは、マルチモーダル入力(ビデオ、オーディオ、テキスト)を処理しなければならない
我々は、エゴセントリックなAIアシスタントを評価するために、長いデュレーション、ストリーミング、オムニモーダルのベンチマークであるtextbfTeleEgoを紹介した。
このデータセットは、4つのドメインにわたる同期されたエゴセントリックなビデオ、オーディオ、テキストの参加者あたり14時間以上を特徴としている。
- 参考スコア(独自算出の注目度): 55.53194302888826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric AI assistants in real-world settings must process multi-modal inputs (video, audio, text), respond in real time, and retain evolving long-term memory. However, existing benchmarks typically evaluate these abilities in isolation, lack realistic streaming scenarios, or support only short-term tasks. We introduce \textbf{TeleEgo}, a long-duration, streaming, omni-modal benchmark for evaluating egocentric AI assistants in realistic daily contexts. The dataset features over 14 hours per participant of synchronized egocentric video, audio, and text across four domains: work \& study, lifestyle \& routines, social activities, and outings \& culture. All data is aligned on a unified global timeline and includes high-quality visual narrations and speech transcripts, curated through human refinement.TeleEgo defines 12 diagnostic subtasks across three core capabilities: Memory (recalling past events), Understanding (interpreting the current moment), and Cross-Memory Reasoning (linking distant events). It contains 3,291 human-verified QA items spanning multiple question formats (single-choice, binary, multi-choice, and open-ended), evaluated strictly in a streaming setting. We propose two key metrics -- Real-Time Accuracy and Memory Persistence Time -- to jointly assess correctness, temporal responsiveness, and long-term retention. TeleEgo provides a realistic and comprehensive evaluation to advance the development of practical AI assistants.
- Abstract(参考訳): 実世界のエゴセントリックAIアシスタントは、マルチモーダル入力(ビデオ、音声、テキスト)を処理し、リアルタイムで応答し、進化する長期記憶を維持する必要がある。
しかし、既存のベンチマークは通常、これらの能力を独立して評価し、現実的なストリーミングシナリオを欠いているか、短期的なタスクのみをサポートしている。
我々は,エゴセントリックなAIアシスタントを現実的な日常的文脈で評価するための,長期的,ストリーミング的,オムニモーダルなベンチマークである‘textbf{TeleEgo} を紹介した。
このデータセットは、4つのドメイン(ワーク・アンド・リサーチ、ライフスタイル・アンド・ルーチン、ソーシャル・アクティビティ、アウトティング・アンド・カルチャー)にまたがる、同期されたエゴセントリックなビデオ、オーディオ、テキストの参加者あたり14時間以上を特徴としている。
TeleEgoは、記憶(過去の出来事をリコールする)、理解(現在の瞬間を解釈する)、クロスメモリ(遠い出来事をリンクする)という3つのコア機能にまたがる12の診断サブタスクを定義している。
ストリーミング環境で厳格に評価された複数の質問形式(シングルチョイス、バイナリ、マルチチョイス、オープンエンド)にまたがる3,291件の人間認証QA項目を含む。
リアルタイムの正確さとメモリ持続時間という2つの重要な指標を提案し、正確性、時間的応答性、長期保持を共同で評価する。
TeleEgoは、実用的なAIアシスタントの開発を進めるために、現実的で包括的な評価を提供する。
関連論文リスト
- Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。
多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。
GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:23:39Z) - Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-06T17:46:23Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - Proactive Assistant Dialogue Generation from Streaming Egocentric Videos [48.30863954384779]
この研究は、多様なタスクを通じてユーザーを誘導できるリアルタイムでプロアクティブなAIアシスタントを開発するための基礎を築いた。
まず,注釈付きエゴセントリックビデオから対話を合成する新しいデータキュレーションパイプラインを提案する。
第2に、広範囲な人間の研究を通して検証された自動評価指標のスイートを開発する。
第3に,ストリーミングビデオ入力を処理し,文脈的に適切な応答を生成するエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:23:29Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains [4.9347081318119015]
本研究では,(1)ステップ認識と(2)ビデオ質問応答の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
タンデムにおいて、この2つのタスクは、(1)新しいドメインに一般化すること、(2)長期の時間的文脈とマルチモーダル(視覚的・音声的)情報を活用すること、の2つのモデルの能力の定量化である。
我々は,モデル微調整を伴わずに大幅な性能向上をもたらすような要約手法により,有望な適応を見いだす。
論文 参考訳(メタデータ) (2023-11-30T18:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。