論文の概要: VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.11417v1
- Date: Tue, 15 Oct 2024 09:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:11.779396
- Title: VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models
- Title(参考訳): VidCompress:大規模言語モデルにおけるビデオ理解のためのメモリ拡張テンポラル圧縮
- Authors: Xiaohan Lan, Yitian Yuan, Zequn Jie, Lin Ma,
- Abstract要約: VidCompressは、メモリ拡張時間圧縮を備えた新しいビデオLLMである。
複雑な時間空間関係を効率的にモデル化し、既存のビデオLLMを著しく上回る。
- 参考スコア(独自算出の注目度): 25.668485023831874
- License:
- Abstract: Video-based multimodal large language models (Video-LLMs) possess significant potential for video understanding tasks. However, most Video-LLMs treat videos as a sequential set of individual frames, which results in insufficient temporal-spatial interaction that hinders fine-grained comprehension and difficulty in processing longer videos due to limited visual token capacity. To address these challenges, we propose VidCompress, a novel Video-LLM featuring memory-enhanced temporal compression. VidCompress employs a dual-compressor approach: a memory-enhanced compressor captures both short-term and long-term temporal relationships in videos and compresses the visual tokens using a multiscale transformer with a memory-cache mechanism, while a text-perceived compressor generates condensed visual tokens by utilizing Q-Former and integrating temporal contexts into query embeddings with cross attention. Experiments on several VideoQA datasets and comprehensive benchmarks demonstrate that VidCompress efficiently models complex temporal-spatial relations and significantly outperforms existing Video-LLMs.
- Abstract(参考訳): ビデオベースマルチモーダル大言語モデル(ビデオLLM)は、ビデオ理解タスクにおいて大きな可能性を秘めている。
しかし、ほとんどのビデオ-LLMは、動画を個々のフレームのシーケンシャルなセットとして扱うため、時間的・空間的相互作用が不十分であり、視覚的トークンの容量が限られているため、細粒度の理解が妨げられ、ビデオの処理が困難になる。
これらの課題に対処するため、メモリ拡張時間圧縮を特徴とする新しいビデオLLMであるVidCompressを提案する。
VidCompressはデュアル圧縮方式を採用している: メモリ強化圧縮機はビデオ内の短期的および長期的時間的関係をキャプチャし、メモリキャッシュ機構を備えたマルチスケールトランスフォーマーを用いて視覚トークンを圧縮する。
いくつかのビデオQAデータセットと包括的なベンチマークの実験は、VidCompressが複雑な時間空間関係を効率的にモデル化し、既存のビデオLLMよりも大幅に優れていることを示した。
関連論文リスト
- $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文 参考訳(メタデータ) (2025-01-31T12:45:46Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - IQViC: In-context, Question Adaptive Vision Compressor for Long-term Video Understanding LMMs [0.0]
我々は、新しいビジュアルコンプレッサー、IQViC(In-context, Question Adaptive Visual)を組み込んだ長期ビデオ理解のためのフレームワークを提案する。
IQViCはトランスフォーマーベースのビジュアル圧縮機であり、ビデオの完全な視覚的特徴に依存する既存の方法とは異なり、質問条件付きテキスト内圧縮を可能にする。
提案するIQViCフレームワークの有効性と,映像理解の精度とメモリ効率の観点から,最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-13T06:52:02Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。