論文の概要: DynTok: Dynamic Compression of Visual Tokens for Efficient and Effective Video Understanding
- arxiv url: http://arxiv.org/abs/2506.03990v1
- Date: Wed, 04 Jun 2025 14:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.374409
- Title: DynTok: Dynamic Compression of Visual Tokens for Efficient and Effective Video Understanding
- Title(参考訳): DynTok: 効果的かつ効果的なビデオ理解のための視覚トークンの動的圧縮
- Authors: Hongzhi Zhang, Jingyuan Zhang, Xingguang Ji, Qi Wang, Fuzheng Zhang,
- Abstract要約: 我々は,新しい textbfDynamic video textbfToken 圧縮戦略である DynTok を紹介する。
本手法は,トークンの数を,同等の性能を維持しつつ,元のサイズの44.4%に削減する。
- 参考スコア(独自算出の注目度): 17.319420726271876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical video modeling methods, such as LLava, represent videos as sequences of visual tokens, which are then processed by the LLM backbone for effective video understanding. However, this approach leads to a massive number of visual tokens, especially for long videos. A practical solution is to first extract relevant visual information from the large visual context before feeding it into the LLM backbone, thereby reducing computational overhead. In this work, we introduce DynTok, a novel \textbf{Dyn}amic video \textbf{Tok}en compression strategy. DynTok adaptively splits visual tokens into groups and merges them within each group, achieving high compression in regions with low information density while preserving essential content. Our method reduces the number of tokens to 44.4% of the original size while maintaining comparable performance. It further benefits from increasing the number of video frames and achieves 65.3% on Video-MME and 72.5% on MLVU. By applying this simple yet effective compression method, we expose the redundancy in video token representations and offer insights for designing more efficient video modeling techniques.
- Abstract(参考訳): LLavaのような典型的なビデオモデリング手法では、ビデオは視覚トークンのシーケンスとして表現され、LLMバックボーンによって処理され、効果的なビデオ理解を行う。
しかし、このアプローチは、特に長いビデオにおいて、膨大な数の視覚トークンをもたらす。
実用的な解決策は、LLMバックボーンに入力する前に、まず大きな視覚的コンテキストから関連する視覚情報を抽出し、計算オーバーヘッドを低減することである。
本稿ではDynTok, a novel \textbf{Dyn}amic video \textbf{Tok}en compression strategyを紹介する。
DynTokは、視覚トークンをグループに適応的に分割し、各グループにマージし、重要な内容を保持しながら情報密度の低い領域で高い圧縮を達成する。
本手法は,トークンの数を,同等の性能を維持しつつ,元のサイズの44.4%に削減する。
さらにビデオフレームの数を増やし、ビデオ-MMEで65.3%、MLVUで72.5%を達成した。
この単純で効果的な圧縮手法を適用することで、ビデオトークン表現の冗長性を露呈し、より効率的なビデオモデリング技術を設計するための洞察を提供する。
関連論文リスト
- Clapper: Compact Learning and Video Representation in VLMs [15.564506713994406]
現在の視覚言語モデル(VLM)は、多様なビデオ理解アプリケーションにまたがる顕著な機能を示している。
本稿では,映像表現の速度を遅くする手法であるクラッパーを提案し,時間空間符号化を効率的にするためのTimePerceiverという新しいモジュールを提案する。
論文 参考訳(メタデータ) (2025-05-21T13:52:17Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - REEF: Relevance-Aware and Efficient LLM Adapter for Video Understanding [2.309018557701645]
最近の方法では、ビデオレベルの理解のために、時間外ビデオを扱うためにメモリバンクを圧縮することが多い。
そこで我々は,視覚トークンを用いて映像を大規模に圧縮するビデオの設計を行った。
論文 参考訳(メタデータ) (2025-04-07T20:36:34Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM [28.64108439552772]
プロプライエタリなモデルから生成された大規模合成データセットを紹介する。
また、計算効率と性能のバランスをとる動的ビジュアルトークン圧縮アーキテクチャについても検討する。
提案手法は,様々な映像タスクにまたがって最先端の成果を達成し,印象的な一般化を示す。
論文 参考訳(メタデータ) (2024-12-12T18:20:41Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。