論文の概要: Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model
- arxiv url: http://arxiv.org/abs/2412.04729v1
- Date: Fri, 06 Dec 2024 02:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:17.088779
- Title: Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model
- Title(参考訳): Espresso:視覚言語モデルのためのビデオからのリッチな抽出のための高圧縮
- Authors: Keunwoo Peter Yu, Achal Dave, Rares Ambrus, Jean Mercat,
- Abstract要約: エスプレッソ(Espresso)は、空間情報と時間情報を別々に抽出し、圧縮する手法である。
本研究では,エスプレッソにおける空間的・時間的圧縮が,長大な映像理解能力に肯定的な影響を与えることを示す。
- 参考スコア(独自算出の注目度): 15.320117192047265
- License:
- Abstract: Most of the current vision-language models (VLMs) for videos struggle to understand videos longer than a few seconds. This is primarily due to the fact that they do not scale to utilizing a large number of frames. In order to address this limitation, we propose Espresso, a novel method that extracts and compresses spatial and temporal information separately. Through extensive evaluations, we show that spatial and temporal compression in Espresso each have a positive impact on the long-form video understanding capabilities; when combined, their positive impact increases. Furthermore, we show that Espresso's performance scales well with more training data, and that Espresso is far more effective than the existing projectors for VLMs in long-form video understanding. Moreover, we devise a more difficult evaluation setting for EgoSchema called "needle-in-a-haystack" that multiplies the lengths of the input videos. Espresso achieves SOTA performance on this task, outperforming the SOTA VLMs that have been trained on much more training data.
- Abstract(参考訳): ビデオの現在の視覚言語モデル(VLM)のほとんどは、数秒以上もビデオを理解するのに苦労している。
これは主に、多数のフレームをスケールしないためである。
この制限に対処するため,空間情報と時間情報を別々に抽出・圧縮する新しい手法であるエスプレッソを提案する。
Espressoの空間的・時間的圧縮が長大な映像理解能力に肯定的な影響を与えていることを示す。
さらに,Espressoの性能はトレーニングデータと同等に向上し,長大なビデオ理解において既存のVLMプロジェクタよりもはるかに効果的であることを示す。
さらに、入力ビデオの長さを乗算する"needle-in-a-haystack"と呼ばれる、EgoSchemaのより難しい評価設定を考案した。
EspressoはこのタスクでSOTAのパフォーマンスを達成し、より多くのトレーニングデータに基づいてトレーニングされたSOTA VLMよりも優れています。
関連論文リスト
- Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces [20.860632218272094]
ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。
時間圧縮を強化するための代替手法を提案する。
本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
論文 参考訳(メタデータ) (2025-01-09T18:55:15Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models [25.668485023831874]
VidCompressは、メモリ拡張時間圧縮を備えた新しいビデオLLMである。
複雑な時間空間関係を効率的にモデル化し、既存のビデオLLMを著しく上回る。
論文 参考訳(メタデータ) (2024-10-15T09:07:25Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。
ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。