論文の概要: EgoExoMem: Cross-View Memory Reasoning over Synchronized Egocentric and Exocentric Videos
- arxiv url: http://arxiv.org/abs/2605.18734v1
- Date: Mon, 18 May 2026 17:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.220876
- Title: EgoExoMem: Cross-View Memory Reasoning over Synchronized Egocentric and Exocentric Videos
- Title(参考訳): EgoExoMem: シンクロナイズドエゴセントリックビデオとエクソセントリックビデオによるクロスビューメモリ推論
- Authors: Ruiping Liu, Junwei Zheng, Yufan Chen, Di Wen, Shaofang Quan, Chengzhi Wu, Jiaming Zhang, Kailun Yang, Kunyu Peng, Rainer Stiefelhagen,
- Abstract要約: EgoExoMemは、同期されたエゴセントリックおよびエクソセントリックなビデオに対するクロスビューメモリ推論のための最初のベンチマークである。
E$2$-Selectはフレーム選択とRAGベースのメモリベースラインよりも5,8.2%の最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 44.8703681382892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric memory is widely used in embodied intelligence, but it may be insufficient for comprehensive spatial-temporal reasoning. Inspired by human recall from both field and observer perspectives, we introduce EgoExoMem, the first benchmark for cross-view memory reasoning over synchronized egocentric and exocentric videos. EgoExoMem contains $2.6K$ high-quality MCQs across eight temporal, spatial, and cross-view QA types. To support dual-view retrieval, we propose E$^2$-Select, a training-free frame selection method for synchronized ego-exo videos. It combines relevance-based budget allocation with per-view k-DPP sampling to handle view asymmetry and cross-view temporal consistency. Experiments show that ego and exo views provide complementary memory cues, while existing MLLMs remain far from solving the benchmark: the best model reaches only $55.3\%$. E$^2$-Select achieves state-of-the-art performance of $58.2\%$ over frame-selection and RAG-based memory baselines. Further analysis reveals systematic view-preference conflicts between question framing and answer grounding, underscoring the novelty and challenge of cross-view memory reasoning.
- Abstract(参考訳): エゴセントリックメモリは、インボディードインテリジェンスにおいて広く用いられているが、包括的な空間的時間的推論には不十分である。
フィールドとオブザーバの両方の観点から人間のリコールにインスパイアされたEgoExoMemは、シンクロナイズドエゴセントリックビデオとエゴセントリックビデオによるクロスビューメモリ推論のための最初のベンチマークである。
EgoExoMemは8つの時間的、空間的、および横断的なQAタイプにわたる高品質のMCQを26Kドルで提供している。
E$^2$-Selectは、同期エゴエクソビデオのための訓練不要フレーム選択法である。
関連性に基づく予算配分と、ビュー毎のk-DPPサンプリングを組み合わせることで、ビュー非対称性とビュー間の時間的一貫性を処理する。
実験によると、エゴとエクソビューは相補的なメモリキューを提供するが、既存のMLLMはベンチマークの解決には程遠い。
E$^2$-Selectはフレーム選択とRAGベースのメモリベースラインに対して58.2\%の最先端のパフォーマンスを達成する。
さらなる分析により、質問フレーミングと回答グラウンドディングの体系的な視点参照の対立が明らかとなり、クロスビューメモリ推論の新規性と課題が浮き彫りになる。
関連論文リスト
- EgoMemReason: A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding [89.26501160264199]
EgoMemReasonは、メモリ駆動推論を通じて、1週間のエゴセントリックなビデオ理解を体系的に評価する。
EgoMemReasonには3つのメモリタイプと6つのコア課題に関する500の質問が含まれている。
EgoMemReasonをMLLMとエージェントフレームワークにまたがる17の手法で評価する。
論文 参考訳(メタデータ) (2026-05-11T01:59:59Z) - Vision-Language Memory for Spatial Reasoning [4.486751990718678]
VLM$2$は空間推論のための永続記憶を持つ視覚言語モデルである。
VLM$2$は、ビデオのみのモデル間で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:59:02Z) - EgoVITA: Learning to Plan and Verify for Egocentric Video Reasoning [3.4997248570131343]
構造化計画と検証を通じてMLLMの推論を可能にする強化学習フレームワークであるtextbfEgoVITA$を紹介した。
EgoVITAは、エゴセントリックな推論タスクにおいて、ベースラインのQwen2.5-VL-7Bを、EgoBlindで$mathbf+7.7$、EgoOrientで$mathbf+4.4$で上回っている。
論文 参考訳(メタデータ) (2025-11-23T01:25:17Z) - EgoExo-Con: Exploring View-Invariant Video Temporal Understanding [66.25513481642845]
Video-LLMは、ビデオが異なる視点から同じイベントをキャプチャしたとき、一貫した時間的理解を実現することができるか?
EgoExo-Con (Consistency) は、自然言語による人間精製クエリと総合的に同期されたエゴセントリックおよびエクソセントリックなビデオペアのベンチマークである。
ビュー固有の時間的推論を効果的に強化する新しい強化学習フレームワークであるView-GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-30T03:53:22Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - Robust Ego-Exo Correspondence with Long-Term Memory [34.992180181705]
我々は,エゴセントリックな視点とエゴセントリックな視点のオブジェクトレベル対応を確立するための新しい枠組みを提案する。
提案手法は,Mixture-of-Experts (MoE) にインスパイアされた,デュアルメモリアーキテクチャと適応型機能ルーティングモジュールを備える。
挑戦的なEgoExo4Dベンチマークの実験では、LM-EECと呼ばれる手法により、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-10-13T13:54:12Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。