論文の概要: EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning
- arxiv url: http://arxiv.org/abs/2605.17262v1
- Date: Sun, 17 May 2026 05:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.814818
- Title: EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning
- Title(参考訳): EgoIntrospect: ユーザ中心の内部状態推論のためのエゴセントリックデータセットとベンチマーク
- Authors: Zeyu Wang, Chang Liu, Eduardus Tjitrahardja, Yuntao Wang, Borislav Pavlov, Fangfei Gou, Jose Manuel Davila, Dai Shi, Ran Xu, Yue Pan, Jiayi Tan, Shuting Chang, Qi Wang, Jinzhao Li, Jiacheng Hua, Yifei Huang, Jingwei Sun, Yu Zhang, Liuxin Zhang, Guocai Yao, Jia Jia, Yin Li, Qianying Wang, Yuanchun Shi, Miao Liu,
- Abstract要約: EgoIntrospectは、セルフアノテーションを備えたユーザ駆動のシナリオでキャプチャされた最初のエゴセントリックなデータセットである。
収録時間は60人から180時間、平均録音時間は1人あたり3時間である。
我々は、感情経験、インタラクティブな意図、認知記憶など、ユーザ内部状態を中心とした一連のタスクを形式化する。
- 参考スコア(独自算出の注目度): 47.853306116245484
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite extensive efforts on egocentric video datasets and benchmarks, understanding users' internal states, which is crucial for enabling seamless AI assistant experiences, remains largely overlooked. In this work, we introduce EgoIntrospect, the first egocentric dataset captured in user-driven scenarios with self-annotations that explicitly reveal users' interactive intentions with AI assistants. EgoIntrospect was collected using a cross-device setup, providing synchronized video, audio, gaze, motion, and physiological signals. It consists of 180 hours of recordings from 60 subjects, with an average recording duration of 3 hours per subject. Leveraging EgoIntrospect, we formalize a suite of tasks centered on user internal states, including affective experience, interactive intent, and cognitive memory. We further process the annotations to construct benchmarks that evaluate the ability of modern multimodal large language models to reason about users' internal states from egocentric observations. Experiments on our benchmark suggest that existing multimodal large language models struggle to effectively leverage multimodal signals to infer users' subjective internal states. The dataset and annotations will be made publicly available to advance research in egocentric vision and wearable AI assistants. Project page: https://ego-introspect.github.io/
- Abstract(参考訳): エゴセントリックなビデオデータセットとベンチマークに対する広範な取り組みにもかかわらず、シームレスなAIアシスタントエクスペリエンスを実現する上で不可欠な、ユーザの内部状態の理解はほとんど見過ごされている。
EgoIntrospectは、ユーザ主導のシナリオでキャプチャされた最初のエゴセントリックなデータセットで、自己アノテーションにより、AIアシスタントによるユーザの対話的意図を明確に示す。
EgoIntrospectはクロスデバイスセットアップを使用して収集され、同期ビデオ、オーディオ、視線、動き、生理的信号を提供する。
収録時間は60人から180時間、平均録音時間は1人あたり3時間である。
EgoIntrospectを活用することで、情緒的体験、インタラクティブな意図、認知記憶など、ユーザ内部状態を中心とした一連のタスクをフォーマル化する。
さらに、アノテーションを処理して、エゴセントリックな観察からユーザの内部状態を推論する、現代のマルチモーダルな大規模言語モデルの能力を評価するベンチマークを構築する。
我々のベンチマーク実験から,既存のマルチモーダル大言語モデルでは,ユーザの主観的内部状態を推定するために,マルチモーダル信号の有効活用に苦慮していることが示唆された。
データセットとアノテーションは、エゴセントリックなビジョンとウェアラブルAIアシスタントの研究を進めるために公開される。
プロジェクトページ: https://ego-introspect.github.io/
関連論文リスト
- EgoSelf: From Memory to Personalized Egocentric Assistant [44.86486625757587]
EgoSelfは過去の観測から構築されたグラフベースのインタラクションメモリを含むシステムである。
メモリは、ユーザ固有のプロファイルが導出されるインタラクションイベントとエンティティ間の時間的および意味的な関係をキャプチャする。
パーソナライズされた学習タスクは、グラフに記録された個々のユーザの履歴行動から将来のインタラクションを予測する予測問題として定式化される。
論文 参考訳(メタデータ) (2026-04-21T15:15:02Z) - Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - Ego-EXTRA: video-language Egocentric Dataset for EXpert-TRAinee assistance [19.081509891187114]
提案するEgo-EXTRAは,Expert-TRAinee支援のためのビデオ言語Egocentricデータセットである。
Ego-EXTRAは、手続き的な活動を行う被験者の50時間のエゴセントリックなビデオが特徴である。
現実世界の専門家は、自然言語を使ってガイダンスを提供し、特定の質問に答える。
論文 参考訳(メタデータ) (2025-12-15T11:53:35Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。