Fugu-MT 論文翻訳(概要): EgoLife: Towards Egocentric Life Assistant

論文の概要: EgoLife: Towards Egocentric Life Assistant

arxiv url: http://arxiv.org/abs/2503.03803v1
Date: Wed, 05 Mar 2025 18:54:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.554065
Title: EgoLife: Towards Egocentric Life Assistant
Title（参考訳）: EgoLife:Egocentric Life Assistantを目指して
Authors: Jingkang Yang, Shuai Liu, Hongming Guo, Yuhao Dong, Xiamengwei Zhang, Sicheng Zhang, Pengyun Wang, Zitang Zhou, Binzhu Xie, Ziyue Wang, Bei Ouyang, Zhengyu Lin, Marco Cominelli, Zhongang Cai, Yuanhan Zhang, Peiyuan Zhang, Fangzhou Hong, Joerg Widmer, Francesco Gringoli, Lei Yang, Bo Li, Ziwei Liu,
Abstract要約: 我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
参考スコア（独自算出の注目度）: 60.51196061794498
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce EgoLife, a project to develop an egocentric life assistant that accompanies and enhances personal efficiency through AI-powered wearable glasses. To lay the foundation for this assistant, we conducted a comprehensive data collection study where six participants lived together for one week, continuously recording their daily activities - including discussions, shopping, cooking, socializing, and entertainment - using AI glasses for multimodal egocentric video capture, along with synchronized third-person-view video references. This effort resulted in the EgoLife Dataset, a comprehensive 300-hour egocentric, interpersonal, multiview, and multimodal daily life dataset with intensive annotation. Leveraging this dataset, we introduce EgoLifeQA, a suite of long-context, life-oriented question-answering tasks designed to provide meaningful assistance in daily life by addressing practical questions such as recalling past relevant events, monitoring health habits, and offering personalized recommendations. To address the key technical challenges of (1) developing robust visual-audio models for egocentric data, (2) enabling identity recognition, and (3) facilitating long-context question answering over extensive temporal information, we introduce EgoButler, an integrated system comprising EgoGPT and EgoRAG. EgoGPT is an omni-modal model trained on egocentric datasets, achieving state-of-the-art performance on egocentric video understanding. EgoRAG is a retrieval-based component that supports answering ultra-long-context questions. Our experimental studies verify their working mechanisms and reveal critical factors and bottlenecks, guiding future improvements. By releasing our datasets, models, and benchmarks, we aim to stimulate further research in egocentric AI assistants.
Abstract（参考訳）: 我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。このアシスタントの基礎を築くために、我々は6人の参加者が1週間一緒に暮らし、議論、買い物、料理、社交、エンターテイメントなど毎日の活動を継続的に記録する総合データ収集研究を行った。この取り組みの結果、EgoLife Datasetは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。このデータセットを活用することで、過去の関連するイベントのリコール、健康習慣のモニタリング、パーソナライズされたレコメンデーションの提供といった実践的な問題に対処することで、日常生活に有意義な支援を提供するために設計された、長いコンテキストのライフ志向の質問応答タスクのスイートであるEgoLifeQAを導入する。 EgoGPTとEgoRAGを組み合わせた統合システムであるEgoButlerを紹介する。 EgoGPTは、エゴセントリックなデータセットに基づいてトレーニングされたオムニモーダルモデルであり、エゴセントリックなビデオ理解における最先端のパフォーマンスを達成する。 EgoRAGは、超長文質問への回答をサポートする検索ベースのコンポーネントである。本研究は, 作業メカニズムを検証し, 重要な要因とボトルネックを明らかにし, 今後の改善を導くものである。データセット、モデル、ベンチマークをリリースすることによって、エゴセントリックなAIアシスタントのさらなる研究を促進することを目指しています。

関連論文リスト

Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。 Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文参考訳（メタデータ） (2025-03-12T08:10:33Z)
EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文参考訳（メタデータ） (2025-01-31T11:48:22Z)
MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文参考訳（メタデータ） (2024-10-09T17:59:59Z)
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文参考訳（メタデータ） (2024-06-26T05:01:37Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。 EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文参考訳（メタデータ） (2024-03-24T15:00:44Z)
Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文参考訳（メタデータ） (2024-01-01T15:31:06Z)
Towards Continual Egocentric Activity Recognition: A Multi-modal Egocentric Activity Dataset for Continual Learning [21.68009790164824]
UESTC-MMEA-CLという連続学習のためのマルチモーダル・エゴセントリックな活動データセットを提案する。ビデオ、加速度計、ジャイロスコープの同期データを含み、32種類の日常活動が10人の参加者によって行われる。 RGB, 加速度, ジャイロスコープの3つのモードを別々に使用した場合に, エゴセントリックな活動認識の結果が報告される。
論文参考訳（メタデータ） (2023-01-26T04:32:00Z)
Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文参考訳（メタデータ） (2022-06-03T16:28:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。