論文の概要: video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory
- arxiv url: http://arxiv.org/abs/2510.11129v1
- Date: Mon, 13 Oct 2025 08:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.26219
- Title: video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory
- Title(参考訳): Video-SALMONN S: Memory経由でオーディオ・ビジュアルのLLMをストリーミング
- Authors: Guangzhi Sun, Yixuan Li, Xiaodong Wu, Yudong Yang, Wei Li, Zejun Ma, Chao Zhang,
- Abstract要約: Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
- 参考スコア(独自算出の注目度): 51.03819128505358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous, high-frame-rate, high-resolution processing of long video streams is critical for future AI agents, yet current video-understanding LLMs struggle to scale. Offline, fixed-frame-number methods require the stream length to adapt frame rates; streaming methods constrain memory by merging or discarding tokens, losing information. We propose video-SALMONN S, a streaming audio-visual LLM that, to our knowledge, is the first to process 3-hour videos at 1 FPS and 360p resolution under a fixed memory budget. Our model introduces (i) a test-time-training (TTT) memory module that continually updates token representations to capture long-range dependencies by replacing token merging, and (ii) a prompt-dependent memory reader that selectively retrieves context-relevant content from fixed-size memory. The TTT module is optimised with a Hessian-free conjugate-gradient procedure (TTT_HF) for efficient adaptation. On long-video benchmarks (Video-MME, LVBench, VideoEvalPro), video-SALMONN S sustains high-quality understanding on multi-hour videos with 10k frames and 1M tokens. Our 8B-parameter model achieves 74.2% overall and 67.8% on the Video-MME long split, outperforming both offline and streaming baselines.
- Abstract(参考訳): 長いビデオストリームの連続的、高いフレームレート、高解像度の処理は、将来のAIエージェントにとって重要であるが、現在のビデオ基盤のLLMはスケールに苦慮している。
オフラインの固定フレーム数法では、フレームレートに適応するためにストリーム長を必要とし、ストリーミングメソッドはトークンをマージまたは破棄することでメモリを制限し、情報を失う。
我々は,ビデオSALMONN Sを提案する。このビデオSALMONN Sは1FPS,360pの3時間動画を,固定メモリの予算で初めて処理することができる。
私たちのモデルが紹介する
i) トークンのマージを置き換えて長距離依存関係をキャプチャするためにトークン表現を継続的に更新するテストタイムトレーニング(TTT)メモリモジュール。
(ii)固定サイズのメモリからコンテキスト関連コンテンツを選択的に検索するプロンプト依存型メモリリーダー。
TTTモジュールは、効率的に適応するためのヘッセンフリー共役勾配手順(TTT_HF)で最適化される。
長ビデオベンチマーク(Video-MME, LVBench, VideoEvalPro)では、ビデオSALMONN Sは10kフレームと1Mトークンを持つマルチ時間ビデオの高品質な理解を維持している。
我々の8Bパラメーターモデルは、ビデオとMMEの長い分割で74.2%、67.8%を達成し、オフラインとストリーミングのベースラインを上回りました。
関連論文リスト
- Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs [25.13186579764434]
Sparse-to-Dense(StD)は、2つの異なるモジュールを統合する新しいデコード戦略である。
StDはチューニング不要のプラグイン・アンド・プレイのソリューションで、最大1.94$times$ビデオ処理のウォールタイムスピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-25T14:09:28Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。