Fugu-MT 論文翻訳(概要): PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models

論文の概要: PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2412.09613v1
Date: Thu, 12 Dec 2024 18:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.488992
Title: PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models
Title（参考訳）: PVC:大規模視覚言語モデルにおける一元化画像と映像処理のためのプログレッシブ・ビジュアル・トーケン圧縮
Authors: Chenyu Yang, Xuan Dong, Xizhou Zhu, Weijie Su, Jiahao Wang, Hao Tian, Zhe Chen, Wenhai Wang, Lewei Lu, Jifeng Dai,
Abstract要約: ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 64.9366388601049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (VLMs) have been extended to understand both images and videos. Visual token compression is leveraged to reduce the considerable token length of visual inputs. To meet the needs of different tasks, existing high-performance models usually process images and videos separately with different token compression strategies, limiting the capabilities of combining images and videos. To this end, we extend each image into a "static" video and introduce a unified token compression strategy called Progressive Visual Token Compression (PVC), where the tokens of each frame are progressively encoded and adaptively compressed to supplement the information not extracted from previous frames. Video tokens are efficiently compressed with exploiting the inherent temporal redundancy. Images are repeated as static videos, and the spatial details can be gradually supplemented in multiple frames. PVC unifies the token compressing of images and videos. With a limited number of tokens per frame (64 tokens by default), spatial details and temporal changes can still be preserved. Experiments show that our model achieves state-of-the-art performance across various video understanding benchmarks, including long video tasks and fine-grained short video tasks. Meanwhile, our unified token compression strategy incurs no performance loss on image benchmarks, particularly in detail-sensitive tasks.
Abstract（参考訳）: 画像とビデオの両方を理解するために、VLM(Large Vision-Language Models)が拡張されている。ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。異なるタスクのニーズを満たすため、既存の高性能モデルは、通常、異なるトークン圧縮戦略で画像とビデオを別々に処理し、画像とビデオを組み合わせる能力を制限する。そこで我々は,各フレームのトークンを段階的に符号化し,適応的に圧縮し,前のフレームから抽出した情報を補完する,プログレッシブ・ビジュアル・トークン圧縮(PVC)と呼ばれる統一されたトークン圧縮戦略を導入する。ビデオトークンは、固有の時間的冗長性を利用して効率よく圧縮される。画像は静止ビデオとして繰り返され、空間の詳細は徐々に複数のフレームで補うことができる。 PVCは画像とビデオのトークン圧縮を統一する。 1フレームあたりのトークン(デフォルトで64トークン)の数が限られているため、空間的詳細と時間的変化は保存できる。実験により,長大なビデオタスクや細粒度のショートビデオタスクを含む,様々なビデオ理解ベンチマークにおける最先端のパフォーマンスが得られた。一方、当社の統一トークン圧縮戦略は、画像ベンチマーク、特にディテールセンシティブなタスクにおいて、パフォーマンスを損なうことはない。

関連論文リスト

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文参考訳（メタデータ） (2024-12-23T18:58:24Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models [25.668485023831874]
VidCompressは、メモリ拡張時間圧縮を備えた新しいビデオLLMである。複雑な時間空間関係を効率的にモデル化し、既存のビデオLLMを著しく上回る。
論文参考訳（メタデータ） (2024-10-15T09:07:25Z)
VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文参考訳（メタデータ） (2024-06-13T17:59:59Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文参考訳（メタデータ） (2023-09-22T13:43:22Z)
Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文参考訳（メタデータ） (2022-10-06T15:35:49Z)
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文参考訳（メタデータ） (2021-11-25T18:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。