Fugu-MT 論文翻訳(概要): EgoEverything: A Benchmark for Human Behavior Inspired Long Context Egocentric Video Understanding in AR Environment

論文の概要: EgoEverything: A Benchmark for Human Behavior Inspired Long Context Egocentric Video Understanding in AR Environment

arxiv url: http://arxiv.org/abs/2604.08342v1
Date: Thu, 09 Apr 2026 15:13:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.985476
Title: EgoEverything: A Benchmark for Human Behavior Inspired Long Context Egocentric Video Understanding in AR Environment
Title（参考訳）: EgoEverything:AR環境における人間行動にインスパイアされたLong Context Egocentric Video Understandingのためのベンチマーク
Authors: Qiance Tang, Ziqi Wang, Jieyu Lin, Ziyun Li, Barbara De Salvo, Sai Qian Zhang,
Abstract要約: EgoEverythingは、目視データから抽象化された人間の注意信号を利用して、質問を生成することで、人間の行動を明確に考慮するベンチマークである。 5000以上の複数の質問応答ペアで構成されており、100時間以上のビデオにまたがっている。人間の自然な振る舞いをより忠実に捉え、ARにおける長いコンテキストのエゴセントリックなビデオ理解のための現実的な評価設定を提供する。
参考スコア（独自算出の注目度）: 13.283186212993703
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Long context egocentric video understanding has recently attracted significant research attention, with augmented reality (AR) highlighted as one of its most important application domains. Nevertheless, the task remains highly challenging due to the need for reasoning over extended temporal contexts and diverse, unstructured activities. Although several benchmarks exist, most egocentric datasets rely on human worn cameras and focus mainly on visual content, with limited consideration of underlying user behavior when forming video-related queries. EgoEverything is a benchmark that explicitly considers human behavior by leveraging human attention signals, abstracted from gaze data, when generating questions. It comprises over 5,000 multiple choice question answer pairs, spanning more than 100 hours of video. By integrating human attention signals during question generation, it more faithfully captures natural human behavior and offers a realistic evaluation setting for long-context egocentric video understanding in AR.
Abstract（参考訳）: 近年,拡張現実(AR)が重要なアプリケーション領域の1つとして注目されている。それでも、このタスクは、拡張された時間的文脈と多様で非構造的な活動に対する推論の必要性から、非常に難しいままである。いくつかのベンチマークが存在するが、ほとんどのエゴセントリックなデータセットは人間の着用するカメラに依存しており、主に視覚コンテンツに焦点を当てている。 EgoEverythingは、目視データから抽象化された人間の注意信号を利用して、質問を生成することで、人間の行動を明確に考慮するベンチマークである。 5000以上の複数の質問応答ペアで構成されており、100時間以上のビデオにまたがっている。質問生成中に人間の注意信号を統合することで、より忠実に人間の振る舞いを捉え、ARにおける長いコンテキストのエゴセントリックなビデオ理解のための現実的な評価設定を提供する。

関連論文リスト

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding [11.51428438970598]
EgoGraphはトレーニング不要でダイナミックな知識グラフ構築フレームワークで、エゴセントリックなビデオストリームにおける長期的、横断的な依存関係を明示的にエンコードする。本研究では,エンティティ間の時間的依存を捕捉し,複数日間にわたって安定した長期記憶を蓄積し,複雑な時間的推論を可能にする時間的関係モデリング戦略を開発する。
論文参考訳（メタデータ） (2026-02-27T06:20:58Z)
Learning Situated Awareness in the Real World [63.75211123289058]
SAW-Benchは、実世界のビデオを用いて自我中心的な位置認識を評価するための新しいベンチマークである。 6つの異なる認識タスクでモデルのオブザーバ中心の理解を探索する。我々の総合評価では、最高のMFMであるGemini 3 Flashでさえ、人間モデルのパフォーマンスギャップは37.66%である。
論文参考訳（メタデータ） (2026-02-18T18:22:52Z)
Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文参考訳（メタデータ） (2025-12-30T16:22:14Z)
EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。 EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文参考訳（メタデータ） (2025-06-09T15:59:25Z)
HiERO: understanding the hierarchy of human behavior enhances reasoning on egocentric videos [2.6749843984691672]
ビデオセグメントの特徴を階層的なアクティビティスレッドで拡張する弱い教師付き手法であるHiEROを提案する。ビデオクリップをナレーション付き記述に合わせることで、HiEROはコンテキスト的、意味的、時間的推論を階層的アーキテクチャで推論する。
論文参考訳（メタデータ） (2025-05-19T09:47:41Z)
EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文参考訳（メタデータ） (2025-03-05T18:54:16Z)
EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文参考訳（メタデータ） (2025-01-31T11:48:22Z)
Egocentric and Exocentric Methods: A Short Survey [25.41820386246096]
エゴセントリックな視覚は、カメラ装着者の視点からシーンを捉えます。外見中心の視覚はシーン全体のコンテキストを捉えます。エゴとエクソビューの併用モデリングは、次世代AIエージェントの開発に不可欠である。
論文参考訳（メタデータ） (2024-10-27T22:38:51Z)
AMEGO: Active Memory from long EGOcentric videos [26.04157621755452]
非常に長いエゴセントリックなビデオの理解を深めるための新しいアプローチであるAMEGOを紹介する。 AMEGOは、人間が単一の視聴から情報を維持する能力に触発され、一つの自我中心のビデオから自己完結した表現を構築することに焦点を当てる。この表現はセマンティックフリーであり、視覚的コンテンツ全体を再処理することなく、複数のクエリを容易にする。
論文参考訳（メタデータ） (2024-09-17T06:18:47Z)
EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2022-10-08T05:49:05Z)
Exploring Anchor-based Detection for Ego4D Natural Language Query [74.87656676444163]
本稿では,CVPR 2022におけるEgo4D自然言語クエリの課題について報告する。上記の課題を解決するために,本課題の解決策を提案する。
論文参考訳（メタデータ） (2022-08-10T14:43:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。