論文の概要: CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management
- arxiv url: http://arxiv.org/abs/2603.19571v1
- Date: Fri, 20 Mar 2026 02:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.94589
- Title: CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management
- Title(参考訳): CurveStream: 階層型ビジュアルメモリ管理によるMLLMにおけるストリーミングビデオ理解の強化
- Authors: Chao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen,
- Abstract要約: トレーニング不要で曲率を考慮した階層型ビジュアルメモリ管理フレームワークであるCurveStreamを提案する。
我々のアプローチは、連続的な特徴軌跡に沿った高曲率領域が重要なグローバルセマンティックトランジションと密接に一致していることの鍵となる観察によって動機付けられている。
この幾何学的洞察に基づいて、CurveStreamはCurvature Scoreを介してリアルタイムセマンティックインテンシティを評価し、オンラインK-Sigmaダイナミックしきい値を統合し、フレームをクリアでファジィなメモリ状態に適応的にルーティングする。
- 参考スコア(独自算出の注目度): 9.03430145112447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.
- Abstract(参考訳): マルチモーダル大規模言語モデルはオフラインビデオ理解において大きな成功を収めてきたが、ビデオストリーミングへの応用は、視覚トークンの線形爆発によって著しく制限されている。
既存の視覚的保持とメモリ管理手法は、通常、一様サンプリング、低レベル物理メトリクス、受動的キャッシュ消去に依存している。
しかしながら、これらの戦略は固有の意味的認識を欠くことが多く、文脈的コヒーレンスを乱し、過渡的で批判的な意味的遷移を曖昧にする可能性がある。
これらの制約に対処するため、トレーニング不要で曲率を考慮した階層型ビジュアルメモリ管理フレームワークであるCurveStreamを提案する。
我々のアプローチは、連続的な特徴軌跡に沿った高曲率領域が重要なグローバルセマンティックトランジションと密接に一致していることの鍵となる観察によって動機付けられている。
この幾何学的洞察に基づいて、CurveStreamはCurvature Scoreを介してリアルタイムセマンティックインテンシティを評価し、オンラインK-Sigmaダイナミックしきい値を統合して、厳密なトークン予算の下でフレームをクリアでファジィなメモリ状態に適応的にルーティングする。
さまざまな時間スケールでの評価により、この軽量フレームワークであるCurveStreamは、各ベースラインに対して10%以上(例えば、StreamingBenchは10.69%、OVOBenchは13.58%)絶対的なパフォーマンス向上を実現し、ストリーミングビデオ知覚のための新たな最先端結果を確立している。コードはhttps://github.com/streamingvideos/CurveStreamでリリースされる。
関連論文リスト
- DASH: Dynamic Audio-Driven Semantic Chunking for Efficient Omnimodal Token Compression [5.201210378318278]
トークン圧縮と意味構造を協調する動的オーディオ駆動セマンティックcHunking(DASH)を提案する。
DASHは音声埋め込みをセマンティックアンカーとして扱い、コサイン類似性不連続性によって境界候補を検出する。
AVUT、VideoMME、WorldSenseの実験では、DASHは従来の方法に比べて高い圧縮比を達成しつつ、優れた精度を維持している。
論文 参考訳(メタデータ) (2026-03-15T15:22:06Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding [92.59317281526239]
HERMESは、ビデオストリームのリアルタイムかつ正確な理解のためのトレーニング不要アーキテクチャである。
HermesはコンパクトなKVキャッシュを再利用し、リソース制約下で効率的なストリーミング理解を可能にする。
Hermesはすべてのベンチマークで優れた精度または同等の精度を実現しており、ストリーミングデータセットでは最大11.4%向上している。
論文 参考訳(メタデータ) (2026-01-21T07:26:15Z) - StreamingTOM: Streaming Token Compression for Efficient Video Understanding [6.9203477336374775]
既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらない。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
実験では, 従来のSOTAと比較して, 15.7 時間で kv-cache 圧縮, 12 時間で低ピークメモリ, 2 時間で速い TTFT 圧縮を実現している。
論文 参考訳(メタデータ) (2025-10-21T03:39:41Z) - StreamForest: Efficient Online Video Understanding with Persistent Event Memory [37.73273040737155]
StreamForestは、ビデオの理解をストリーミングするために設計されている。
微粒な時空間ウィンドウは、現在のシーン知覚を改善するために、詳細な短期的な視覚的手がかりをキャプチャする。
OnlineITはリアルタイム認識と将来の予測の両方においてMLLMのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-29T14:53:57Z) - DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。
オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。
DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文 参考訳(メタデータ) (2025-03-18T06:49:51Z) - MemFlow: Optical Flow Estimation and Prediction with Memory [54.22820729477756]
本稿では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。
本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。
われわれのアプローチは、過去の観測に基づいて、将来の光流の予測にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-04-07T04:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。