論文の概要: Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2503.16980v1
- Date: Fri, 21 Mar 2025 09:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:59:03.850649
- Title: Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models
- Title(参考訳): Token Dynamics:ビデオ大言語モデルのための効率的な動的ビデオトケ表現を目指して
- Authors: Haichao Zhang, Zhuowei Li, Dimitris Metaxas, Yun Fu,
- Abstract要約: 音声による映像表現は,大規模言語モデルによる映像コンテンツの解釈を可能にするための,有望なアプローチとして浮上している。
トークンプルーニングやトークンマージといった既存のトークン低減技術は、しばしば重要な空間的時間的位置埋め込みを阻害する。
極端に短いトークンの削減という新しいタスクを導入し、最小限のトークン数で広範囲なビデオシーケンスを表現することを目的としている。
- 参考スコア(独自算出の注目度): 44.98824813305541
- License:
- Abstract: Token-based video representation has emerged as a promising approach for enabling large language models to interpret video content. However, existing token reduction techniques, such as token pruning and token merging, often disrupt essential spatial-temporal positional embeddings, failing to adequately balance computational efficiency with fewer tokens. Consequently, these methods result in relatively lengthy token sequences, limiting their applicability in scenarios requiring extreme token compression, such as video large language models. In this paper, we introduce the novel task of extreme short token reduction, aiming to represent extensive video sequences with a minimal number of tokens. To address this challenge, we propose Token Dynamics, a new video representation framework that dynamically reduces token count while preserving spatial-temporal coherence. Specifically, we disentangle video representations by separating visual embeddings from grid-level motion information, structuring them into: 1. a concise token base, created by clustering tokens that describe object-level content; 2. a token dynamics map, capturing detailed spatial-temporal motion patterns across grids. Furthermore, we introduce a cross-dynamics attention mechanism that integrates motion features into the token base without increasing token length, thereby maintaining compactness and spatial-temporal integrity. The experiments demonstrate a reduction of token count to merely 0.07% of the original tokens, with only a minor performance drop of 1.13%. Additionally, we propose two novel subtasks within extreme token reduction (fixed-length and adaptive-length compression), both effectively representing long token sequences for video-language tasks. Our method offers significantly lower theoretical complexity, fewer tokens, and enhanced throughput, thus providing an efficient solution for video LLMs.
- Abstract(参考訳): 音声による映像表現は,大規模言語モデルによる映像コンテンツの解釈を可能にするための,有望なアプローチとして浮上している。
しかし、トークンプルーニングやトークンマージのような既存のトークン削減技術は、しばしば重要な空間的時間的位置埋め込みを妨害し、より少ないトークンで計算効率を適切にバランスさせることに失敗した。
その結果、これらの手法は比較的長いトークンシーケンスとなり、ビデオ大言語モデルのような極端なトークン圧縮を必要とするシナリオにおいて、それらの適用性が制限される。
本稿では,極端に短いトークンを減らし,最小限のトークン数で広範囲なビデオシーケンスを表現することを目的とした新しいタスクを提案する。
この課題に対処するために、空間的時間的コヒーレンスを維持しながらトークン数を動的に削減する新しいビデオ表現フレームワークであるToken Dynamicsを提案する。
具体的には、グリッドレベルのモーション情報から視覚的埋め込みを分離し、それらを構造化することで、映像表現をアンタングル化する。
1. オブジェクトレベルの内容を記述するトークンをクラスタリングすることで生成される簡潔なトークンベース。
2. グリッドを横断する詳細な時空間運動パターンをキャプチャするトークンダイナミックスマップ。
さらに,トークン長を増大させることなく,動作特徴をトークンベースに統合し,コンパクト性と空間的整合性を維持するクロスダイナミックスアテンション機構を導入する。
実験では、トークンの数を0.07%に減らし、小さなパフォーマンス低下は1.13%に留まった。
さらに,ビデオ言語タスクの長いトークンシーケンスを効果的に表現する,極端トークン削減(固定長と適応長の圧縮)の2つの新しいサブタスクを提案する。
提案手法は, 理論的複雑性を著しく低減し, トークンを少なくし, スループットを向上し, ビデオLLMの効率的な解法を提供する。
関連論文リスト
- Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model [45.01871133425388]
ライフサイクル全体から各トークンの重要性を測定するため,マルチステージトークンドロップ(MustDrop)を提案する。
MustDropはLLaVAで約88.5%のFLOPを削減し、圧縮比は92.2%である。
論文 参考訳(メタデータ) (2024-11-16T13:45:33Z) - Video Token Merging for Long-form Video Understanding [17.59960070514554]
学習可能なビデオトークンのマージアルゴリズムを提案し,その正当性に基づいて動的にトークンをマージする。
提案手法は,メモリコストを84%削減し,スループットをベースラインアルゴリズムに比べて約6.89倍向上させる。
論文 参考訳(メタデータ) (2024-10-31T09:55:32Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。