論文の概要: FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2603.02096v1
- Date: Mon, 02 Mar 2026 17:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.001469
- Title: FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding
- Title(参考訳): FluxMem: ビデオ理解のストリーミングのための適応的階層型メモリ
- Authors: Yiweng Xie, Bo He, Junke Wang, Xiangyu Zheng, Ziyi Ye, Zuxuan Wu,
- Abstract要約: FluxMemは階層的な2段階の設計を通じて冗長な視覚記憶を適応的に圧縮する。
既存のオンラインビデオベンチマークで、最先端の結果を新たに達成する。
強力なオフライン性能を維持し、MLVUで73.1を達成し、65%のビジュアルトークンを使用する。
- 参考スコア(独自算出の注目度): 49.23912975740968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents FluxMem, a training-free framework for efficient streaming video understanding. FluxMem adaptively compresses redundant visual memory through a hierarchical, two-stage design: (1) a Temporal Adjacency Selection (TAS) module removes redundant visual tokens across adjacent frames, and (2) a Spatial Domain Consolidation (SDC) module further merges spatially repetitive regions within each frame into compact representations. To adapt effectively to dynamic scenes, we introduce a self-adaptive token compression mechanism in both TAS and SDC, which automatically determines the compression rate based on intrinsic scene statistics rather than manual tuning. Extensive experiments demonstrate that FluxMem achieves new state-of-the-art results on existing online video benchmarks, reaching 76.4 on StreamingBench and 67.2 on OVO-Bench under real-time settings, while reducing latency by 69.9% and peak GPU memory by 34.5% on OVO-Bench. Furthermore, it maintains strong offline performance, achieving 73.1 on MLVU while using 65% fewer visual tokens.
- Abstract(参考訳): 本稿では,効率的なストリーミングビデオ理解のためのトレーニングフリーフレームワークであるFluxMemについて述べる。
FluxMemは階層的な2段階の設計により冗長な視覚記憶を適応的に圧縮する: 1) 時間的隣接選択(TAS)モジュールは隣接フレーム間の冗長な視覚トークンを除去し、(2) 空間的領域統合(SDC)モジュールは各フレーム内の空間的繰り返し領域をコンパクトな表現にマージする。
動的シーンに効果的に対応するために,TASとSDCの両方に自己適応型トークン圧縮機構を導入する。
大規模な実験により、FluxMemは既存のオンラインビデオベンチマークで新しい最先端の結果を達成し、リアルタイム設定でStreamingBenchで76.4、OVO-Benchで67.2、レイテンシで69.9%、OVO-BenchでピークGPUメモリで34.5%の遅延を減らした。
さらに、強力なオフラインパフォーマンスを維持し、MLVUで73.1を達成すると同時に、65%のビジュアルトークンを使用する。
関連論文リスト
- Event-Anchored Frame Selection for Effective Long-Video Understanding [67.56884568828508]
Event-Anchored Frame Selection (EFS)は階層的なイベント認識パイプラインである。
トレーニング不要のプラグイン・アンド・プレイモジュールとして、EFSは既製のLVLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2026-03-01T08:25:37Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - Self-Supervised Compression and Artifact Correction for Streaming Underwater Imaging Sonar [14.023965177100239]
実時間撮像ソナーは、光センシングが信頼性の低い環境下での水中監視において重要なツールとなっている。
クリーンノイズペアや合成仮定を使わずに圧縮とアーティファクトの補正を共同で行う自己教師型フレームワークSCOPEを提案する。
SCOPEは太平洋岸北西部の3つの河川に数ヶ月間展開され、野生でのリアルタイムサケの列挙と環境モニタリングを支援している。
論文 参考訳(メタデータ) (2025-11-17T21:19:15Z) - StreamForest: Efficient Online Video Understanding with Persistent Event Memory [37.73273040737155]
StreamForestは、ビデオの理解をストリーミングするために設計されている。
微粒な時空間ウィンドウは、現在のシーン知覚を改善するために、詳細な短期的な視覚的手がかりをキャプチャする。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-29T14:53:57Z) - Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance [4.6432462796838125]
本研究では,視覚言語モデル(VLM)のためのクロスモーダル微分量子化フレームワークと,視覚障害者支援のためのシーン認識ベクトル化メモリマルチエージェントシステムを提案する。
モデル性能を維持しながら、メモリ要求を38GBから16GBに効果的に削減し、異なる処理戦略を実装したモジュラーフレームワークを開発した。
論文 参考訳(メタデータ) (2025-08-25T16:32:32Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality [15.714133129768323]
ME-rは時間空間空間双対性に基づくメモリ効率のアルゴリズムである。
最小の計算オーバーヘッドを維持しながら、顔フレーム間の微妙な周期的な変動を効率的に捉える。
我々のソリューションは3.6MBのメモリ使用率と9.46msのレイテンシでリアルタイムの推論を可能にする。
論文 参考訳(メタデータ) (2025-04-02T14:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。