論文の概要: Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding
- arxiv url: http://arxiv.org/abs/2603.15167v1
- Date: Mon, 16 Mar 2026 12:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.197403
- Title: Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding
- Title(参考訳): 長期映像理解のための記憶フィードバックを用いた質問誘導型視覚圧縮
- Authors: Sosuke Yamao, Natsuki Miyahara, Yuankai Qi, Shun Takeuchi,
- Abstract要約: 本稿では,長期的ビデオ理解のためのフレームワークであるQViC-MF(QViC-MF)を提案する。
コアとなるQMSAは、現在のクリップと過去の関連フレームの両方から与えられた質問に関連する視覚情報をメモリから保存することを学ぶ。
MLVU試験では6.1%,LVBenchでは8.3%,VNBench Longでは18.3%,VideoMME Longでは3.7%,最先端手法では6.1%の大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 16.406614655485722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the context of long-term video understanding with large multimodal models, many frameworks have been proposed. Although transformer-based visual compressors and memory-augmented approaches are often used to process long videos, they usually compress each frame independently and therefore fail to achieve strong performance on tasks that require understanding complete events, such as temporal ordering tasks in MLVU and VNBench. This motivates us to rethink the conventional one-way scheme from perception to memory, and instead establish a feedbackdriven process in which past visual contexts stored in the context memory can benefit ongoing perception. To this end, we propose Question-guided Visual Compression with Memory Feedback (QViC-MF), a framework for long-term video understanding. At its core is a Question-guided Multimodal Selective Attention (QMSA), which learns to preserve visual information related to the given question from both the current clip and the past related frames from the memory. The compressor and memory feedback work iteratively for each clip of the entire video. This simple yet effective design yields large performance gains on longterm video understanding tasks. Extensive experiments show that our method achieves significant improvement over current state-of-the-art methods by 6.1% on MLVU test, 8.3% on LVBench, 18.3% on VNBench Long, and 3.7% on VideoMME Long. The code will be released publicly.
- Abstract(参考訳): 大規模なマルチモーダルモデルを用いた長期ビデオ理解の文脈では、多くのフレームワークが提案されている。
トランスフォーマーベースのビジュアルコンプレッサーとメモリ拡張されたアプローチは長いビデオの処理によく使用されるが、通常は各フレームを独立して圧縮するので、MLVUやVNBenchの時間順序タスクのような完全なイベントを理解する必要のあるタスクでは、高いパフォーマンスが得られない。
これは、従来のワンウェイスキームを知覚から記憶へ再考する動機となり、代わりに、過去の視覚的コンテキストを記憶に格納することで、継続的な知覚に役立てることができるフィードバック駆動プロセスを確立する。
そこで本稿では,長期的ビデオ理解のためのフレームワークであるQViC-MF(QViC-MF)を提案する。
コアとなるQMSAは、現在のクリップと過去の関連フレームの両方から与えられた質問に関連する視覚情報をメモリから保存することを学ぶ。
圧縮機とメモリのフィードバックは、ビデオ全体のクリップ毎に反復的に動作する。
このシンプルで効果的な設計は、長期的なビデオ理解タスクにおいて大きなパフォーマンス向上をもたらす。
MLVU試験では6.1%,LVBenchでは8.3%,VNBench Longでは18.3%,VideoMME Longでは3.7%,最先端手法では6.1%の大幅な改善が得られた。
コードは公開されます。
関連論文リスト
- WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning [66.24870234484668]
我々は,複数の相補的記憶から構築・取得する,新しいマルチモーダルメモリエージェント WorldMM を紹介する。
WorldMMは5つの長いビデオ質問回答ベンチマークで既存のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-12-02T05:14:52Z) - AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。
AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。
VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文 参考訳(メタデータ) (2025-03-16T16:14:52Z) - IQViC: In-context, Question Adaptive Vision Compressor for Long-term Video Understanding LMMs [0.0]
我々は、新しいビジュアルコンプレッサー、IQViC(In-context, Question Adaptive Visual)を組み込んだ長期ビデオ理解のためのフレームワークを提案する。
IQViCはトランスフォーマーベースのビジュアル圧縮機であり、ビデオの完全な視覚的特徴に依存する既存の方法とは異なり、質問条件付きテキスト内圧縮を可能にする。
提案するIQViCフレームワークの有効性と,映像理解の精度とメモリ効率の観点から,最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-13T06:52:02Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Hierarchical Memory for Long Video QA [78.72965584414368]
本稿では,LOVEU Challenge @ CVPR'24, Track 1 (Long Video VQA) のチャンピオンソリューションについて述べる。
我々は、限られたGPUメモリ(VRAM)で長いビデオを処理できるSTARメモリという階層的なメモリ機構を採用した。
さらに,MovieChat-1K トレーニングセットの映像と音声データを利用して,Flash-VStream がリリースした事前学習重量を微調整し,課題の1位を達成した。
論文 参考訳(メタデータ) (2024-06-30T06:08:12Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。