Fugu-MT 論文翻訳(概要): video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory

論文の概要: video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory

arxiv url: http://arxiv.org/abs/2510.11129v1
Date: Mon, 13 Oct 2025 08:20:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:30.26219
Title: video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory
Title（参考訳）: Video-SALMONN S: Memory経由でオーディオ・ビジュアルのLLMをストリーミング
Authors: Guangzhi Sun, Yixuan Li, Xiaodong Wu, Yudong Yang, Wei Li, Zejun Ma, Chao Zhang,
Abstract要約: Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
参考スコア（独自算出の注目度）: 51.03819128505358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continuous, high-frame-rate, high-resolution processing of long video streams is critical for future AI agents, yet current video-understanding LLMs struggle to scale. Offline, fixed-frame-number methods require the stream length to adapt frame rates; streaming methods constrain memory by merging or discarding tokens, losing information. We propose video-SALMONN S, a streaming audio-visual LLM that, to our knowledge, is the first to process 3-hour videos at 1 FPS and 360p resolution under a fixed memory budget. Our model introduces (i) a test-time-training (TTT) memory module that continually updates token representations to capture long-range dependencies by replacing token merging, and (ii) a prompt-dependent memory reader that selectively retrieves context-relevant content from fixed-size memory. The TTT module is optimised with a Hessian-free conjugate-gradient procedure (TTT_HF) for efficient adaptation. On long-video benchmarks (Video-MME, LVBench, VideoEvalPro), video-SALMONN S sustains high-quality understanding on multi-hour videos with 10k frames and 1M tokens. Our 8B-parameter model achieves 74.2% overall and 67.8% on the Video-MME long split, outperforming both offline and streaming baselines.
Abstract（参考訳）: 長いビデオストリームの連続的、高いフレームレート、高解像度の処理は、将来のAIエージェントにとって重要であるが、現在のビデオ基盤のLLMはスケールに苦慮している。オフラインの固定フレーム数法では、フレームレートに適応するためにストリーム長を必要とし、ストリーミングメソッドはトークンをマージまたは破棄することでメモリを制限し、情報を失う。我々は,ビデオSALMONN Sを提案する。このビデオSALMONN Sは1FPS,360pの3時間動画を,固定メモリの予算で初めて処理することができる。私たちのモデルが紹介する i) トークンのマージを置き換えて長距離依存関係をキャプチャするためにトークン表現を継続的に更新するテストタイムトレーニング(TTT)メモリモジュール。 (ii)固定サイズのメモリからコンテキスト関連コンテンツを選択的に検索するプロンプト依存型メモリリーダー。 TTTモジュールは、効率的に適応するためのヘッセンフリー共役勾配手順(TTT_HF)で最適化される。長ビデオベンチマーク(Video-MME, LVBench, VideoEvalPro)では、ビデオSALMONN Sは10kフレームと1Mトークンを持つマルチ時間ビデオの高品質な理解を維持している。我々の8Bパラメーターモデルは、ビデオとMMEの長い分割で74.2%、67.8%を達成し、オフラインとストリーミングのベースラインを上回りました。

論文の概要: video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory

関連論文リスト