論文の概要: FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2602.01683v1
- Date: Mon, 02 Feb 2026 05:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.937449
- Title: FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding
- Title(参考訳): FreshMem:脳にインスパイアされた周波数空間ハイブリッドメモリ
- Authors: Kangcong Li, Peng Ye, Lin Zhang, Chao Wang, Huafeng Qin, Tao Chen,
- Abstract要約: 本稿では,脳の対数知覚とメモリ統合にインスパイアされた周波数空間ハイブリッドメモリネットワークであるFreshMemを提案する。
FreshMemは2つの相乗的加群を通して長期コヒーレンスで短期忠実度を調整する。
実験の結果、FreshMemはQwen2-VLベースラインを大幅に向上させ、StreamingBench、OV-Bench、OVO-Benchでそれぞれ5.20%、4.52%、および2.34%の上昇を示した。
- 参考スコア(独自算出の注目度): 16.693006630166316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transitioning Multimodal Large Language Models (MLLMs) from offline to online streaming video understanding is essential for continuous perception. However, existing methods lack flexible adaptivity, leading to irreversible detail loss and context fragmentation. To resolve this, we propose FreshMem, a Frequency-Space Hybrid Memory network inspired by the brain's logarithmic perception and memory consolidation. FreshMem reconciles short-term fidelity with long-term coherence through two synergistic modules: Multi-scale Frequency Memory (MFM), which projects overflowing frames into representative frequency coefficients, complemented by residual details to reconstruct a global historical "gist"; and Space Thumbnail Memory (STM), which discretizes the continuous stream into episodic clusters by employing an adaptive compression strategy to distill them into high-density space thumbnails. Extensive experiments show that FreshMem significantly boosts the Qwen2-VL baseline, yielding gains of 5.20%, 4.52%, and 2.34% on StreamingBench, OV-Bench, and OVO-Bench, respectively. As a training-free solution, FreshMem outperforms several fully fine-tuned methods, offering a highly efficient paradigm for long-horizon streaming video understanding.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)のオフラインからオンラインストリーミングビデオ理解への移行は、継続的な知覚に不可欠である。
しかし、既存の方法は柔軟な適応性に欠けており、不可逆的な詳細損失とコンテキストの断片化をもたらす。
そこで本研究では,脳の対数知覚とメモリ統合に触発された周波数空間ハイブリッドメモリネットワークであるFreshMemを提案する。
MFM(Multi-scale Frequency Memory)は、フレームのオーバーフローを代表周波数係数に投影し、残余の詳細で補完してグローバルな歴史的な"gist"を再構築するものであり、STM(Space Thumbnail Memory)は、高密度空間サムネイルに抽出する適応的圧縮戦略を用いて、連続ストリームをエピソードクラスタに識別する。
大規模な実験により、FreshMemはQwen2-VLベースラインを著しく向上させ、StreamingBench、OV-Bench、OVO-Benchでそれぞれ5.20%、4.52%、および2.34%の上昇を示した。
トレーニングなしのソリューションとして、FreshMemはいくつかの完全に調整された方法より優れており、長距離ストリーミングビデオ理解のための非常に効率的なパラダイムを提供する。
関連論文リスト
- See More, Store Less: Memory-Efficient Resolution for Video Moment Retrieval [5.835635134105812]
本稿では,高情報解像度を維持しながらメモリ効率を向上させるフレームワークであるSMORE(See MORE, store less)を提案する。
SMORE (1) は,ユーザ意図に沿ったセマンティクスを符号化するためにクエリ誘導キャプションを使用し,(2) 関連するセグメントをハイライトするためにクエリ認識の重要度変調を適用し,(3) キーコンテンツを保存するためにフレームを適応的に圧縮する。
実験的検証により、SMOREはQVHighlights、Charades-STA、ActivityNet-Captionsベンチマークで最先端のパフォーマンスを達成することが明らかになった。
論文 参考訳(メタデータ) (2026-01-14T10:28:11Z) - VideoMem: Enhancing Ultra-Long Video Understanding via Adaptive Memory Management [17.645183933549458]
VideoMemは、適応メモリ管理によるシーケンシャルな生成タスクとして、長いビデオ理解をモデル化する新しいフレームワークである。
我々は,VMemが,超長期ビデオ理解タスクの様々なベンチマークにおいて,既存のオープンソースモデルを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-04T07:42:13Z) - VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory [42.2374676860638]
自己回帰(AR)拡散は、フレームを因果的に生成することで、ストリーミングでインタラクティブな長ビデオ生成を可能にする。
微小スケールの地平線上でのコヒーレンスを維持することは、蓄積したエラー、動きのドリフト、およびコンテンツ反復のために依然として困難である。
我々は、AR拡散をハイブリッドな状態空間メモリと統合する長ビデオモデルVideoSSMを提案する。
論文 参考訳(メタデータ) (2025-12-04T07:06:02Z) - WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。
我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。
これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文 参考訳(メタデータ) (2025-07-02T15:44:35Z) - AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。
AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。
VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文 参考訳(メタデータ) (2025-03-16T16:14:52Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。