論文の概要: StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2604.09000v1
- Date: Fri, 10 Apr 2026 06:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.712911
- Title: StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding
- Title(参考訳): StreamMeCo: 効率的なストリーミングビデオ理解のための長期エージェントメモリ圧縮
- Authors: Junxi Wang, Te Sun, Jiayi Zhu, Junxian Li, Haowen Xu, Zichen Wen, Xuming Hu, Zhiyu Li, Linfeng Zhang,
- Abstract要約: 視覚エージェントメモリは、ストリーミングビデオ理解において顕著な効果を示した。
本稿では,効率的なストリームエージェントメモリ圧縮フレームワークStreamMeCoを提案する。
70%のメモリグラフ圧縮では、StreamMeCoは1.87*の高速化を実現し、平均精度は1.0%向上した。
- 参考スコア(独自算出の注目度): 43.20225248425961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision agent memory has shown remarkable effectiveness in streaming video understanding. However, storing such memory for videos incurs substantial memory overhead, leading to high costs in both storage and computation. To address this issue, we propose StreamMeCo, an efficient Stream Agent Memory Compression framework. Specifically, based on the connectivity of the memory graph, StreamMeCo introduces edge-free minmax sampling for the isolated nodes and an edge-aware weight pruning for connected nodes, evicting the redundant memory nodes while maintaining the accuracy. In addition, we introduce a time-decay memory retrieval mechanism to further eliminate the performance degradation caused by memory compression. Extensive experiments on three challenging benchmark datasets (M3-Bench-robot, M3-Bench-web and Video-MME-Long) demonstrate that under 70% memory graph compression, StreamMeCo achieves a 1.87* speedup in memory retrieval while delivering an average accuracy improvement of 1.0%. Our code is available at https://github.com/Celina-love-sweet/StreamMeCo.
- Abstract(参考訳): 視覚エージェントメモリは、ストリーミングビデオ理解において顕著な効果を示した。
しかし、そのようなメモリをビデオに保存するとメモリのオーバーヘッドが大きくなり、ストレージと計算の両方で高いコストがかかる。
本稿では,効率的なストリームエージェントメモリ圧縮フレームワークStreamMeCoを提案する。
具体的には、メモリグラフの接続性に基づいて、StreamMeCoは分離されたノードに対してエッジフリーのminmaxサンプリングを導入し、接続されたノードに対してエッジ対応の重み付けを導入し、正確性を保ちながら冗長なメモリノードを排除した。
さらに,メモリ圧縮による性能劣化を解消する時間遅延メモリ検索機構を導入する。
M3-Bench-robot、M3-Bench-web、Video-MME-Longの3つの挑戦的なベンチマークデータセットに対する大規模な実験では、70%のメモリグラフ圧縮では、StreamMeCoは平均精度1.0%の向上を達成しながら、メモリ検索の1.87*高速化を実現している。
私たちのコードはhttps://github.com/Celina-love-sweet/StreamMeCoで利用可能です。
関連論文リスト
- Evict3R: Training-Free Token Eviction for Memory-Bounded Streaming Visual Geometry Transformers [1.9268905951820923]
StreamVGGTのようなストリーミングビジュアルトランスフォーマーは、強力な3D認識を実現するが、キーバリュー(KV)メモリの増大に悩まされる。
本稿では、冗長なトークンを破棄し、最も情報性の高いトークンを保持しながらメモリをバウンドする、トレーニング不要な推論時トークン消去ポリシーを提案する。
論文 参考訳(メタデータ) (2025-09-22T11:54:58Z) - InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding [26.408842739663346]
InfiniPot-Vは、ストリーミングビデオ理解のためのハードで長さに依存しないメモリキャップを強制する、トレーニング不要でクエリに依存しない最初のフレームワークである。
ピーク時のGPUメモリを最大94%削減し、リアルタイム生成を継続し、マルチターンダイアログでフルキャッシュの正確性にマッチまたは超える。
論文 参考訳(メタデータ) (2025-06-18T02:22:14Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。