論文の概要: EGOSTREAM: A Diagnostic Benchmark for Streaming Episodic Memory in Egocentric Vision
- arxiv url: http://arxiv.org/abs/2605.31557v2
- Date: Mon, 01 Jun 2026 11:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.934191
- Title: EGOSTREAM: A Diagnostic Benchmark for Streaming Episodic Memory in Egocentric Vision
- Title(参考訳): EGOSTREAM: 自我中心視におけるエピソード記憶のストリーミングのための診断ベンチマーク
- Authors: Rosario Forte, Giuseppe Lando, Antonino Furnari,
- Abstract要約: 連続エピソードメモリは自律エージェントのコア機能である。
Egostreamは、egocentric Visionにおけるエピソードメモリ評価の診断ベンチマークである。
- 参考スコア(独自算出の注目度): 9.701124246177661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous episodic memory is a core capability for autonomous agents operating in dynamic, real-world environments, yet current streaming video benchmarks provide limited tools for diagnosing what models remember and for how long. We introduce Egostream, a diagnostic benchmark for streaming episodic memory evaluation in egocentric vision. \egostream organizes 2,250 curated questions along seven cognitive dimensions: detail, spatial, temporal, event, social, causal, and prospective memory. We introduce the Answer Validity Window (AVW), which specifies the temporal span an answer remains valid as the observed scene evolves. This allows us to expand the questions into 8,528 recall-conditioned evaluations, enabling controlled testing from instant to ultra-long-term recall while separating genuine model forgetting from natural world-state changes. We rigorously establish baseline performance through a unified streaming MLLM framework that compares several state-of-the-art memory-management mechanisms, covering sliding windows, attention sinks, KV-cache pruning, merging, and offloading. Experiments within a unified Qwen3-VL backbone reveal that comparable aggregate accuracies mask starkly different memory profiles. For instance, token pruning preserves fine-grained details and temporal structure significantly better than token merging, while quantized offloading rescues ultra-long-term recall. Ultimately, all mechanisms operate well below real-time (>1s per frame), and top performing methods ceil at about 45% accuracy, exposing critical gaps in current architectures. Egostream provides the diagnostic testbed needed to close these gaps. Project website, news and updates at: https://saroo25.github.io/Egostream/
- Abstract(参考訳): 連続エピソードメモリは、動的で現実世界の環境で動く自律エージェントの中核機能であるが、現在のストリーミングビデオベンチマークは、モデルを記憶し、どのくらいの期間にわたって診断する限られたツールを提供する。
本稿では,エゴセントリック視覚におけるエピソードメモリ評価のための診断ベンチマークであるEgostreamを紹介する。
\egostreamは、細部、空間、時間、出来事、社会的、因果、予知記憶の7つの認知次元に沿って、2,250のキュレートされた質問を整理する。
本稿では,観測シーンの進行とともに応答の時間的スパンが有効であることを示すアンサー検証ウィンドウ(AVW)を提案する。
これにより、質問を8,528件のリコール条件付き評価に拡張し、自然世界状態の変化から真のモデル忘れを分離しながら、即時から超長期のリコールまで制御されたテストを可能にする。
我々は,複数の最先端メモリ管理機構を比較し,スライディングウィンドウ,アテンションシンク,KVキャッシュプルーニング,マージ,オフロードを網羅する統合ストリーミングMLLMフレームワークを用いて,ベースライン性能を厳格に確立する。
統一されたQwen3-VLバックボーン内での実験では、同等のアキュラシーマスクが驚くほど異なるメモリプロファイルを隠蔽していることが明らかになった。
例えば、トークンプルーニングはトークンのマージよりも微細な詳細と時間構造を保ち、量子化されたオフロードは極長期のリコールを回収する。
究極的には、すべてのメカニズムはリアルタイム(フレームあたり1秒未満)で動作し、トップパフォーマンスメソッドは約45%の精度で停止し、現在のアーキテクチャにおける重要なギャップを露呈する。
Egostreamはこれらのギャップを埋めるために必要な診断テストベッドを提供する。
プロジェクトのWebサイト、ニュース、アップデート: https://saroo25.github.io/Egostream/
関連論文リスト
- Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory [50.857546269660276]
本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
論文 参考訳(メタデータ) (2026-05-14T20:15:22Z) - Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding [55.7992006853979]
SAVEMemは、セマンティックな認識をメモリ生成にもたらすフレームワークで、クエリ毎に検索スコープを適応させる。
SAVEMemは、メモリ生成にセマンティックな認識をもたらし、クエリ毎に検索範囲を適応させる、トレーニングフリーのデュアルステージフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:40:40Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - CroBIM-V: Memory-Quality Controlled Remote Sensing Referring Video Object Segmentation [0.3099118620919279]
本稿では、データと方法論の二重貢献を通してRS-RVOSの研究を進める。
まず,111の動画シーケンス,約25,000のフレーム,213,000の時間参照アノテーションからなる最初の大規模ベンチマークであるRS-RVOS Benchを構築した。
第2に、セグメンテーションモデル(MQC-SAM)を用いたメモリ品質制御と呼ばれる、メモリ品質を考慮したオンライン参照セグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-17T14:52:46Z) - StreamForest: Efficient Online Video Understanding with Persistent Event Memory [37.73273040737155]
StreamForestは、ビデオの理解をストリーミングするために設計されている。
微粒な時空間ウィンドウは、現在のシーン知覚を改善するために、詳細な短期的な視覚的手がかりをキャプチャする。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-29T14:53:57Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。