論文の概要: Seeing More, Saying More: Lightweight Language Experts are Dynamic Video Token Compressors
- arxiv url: http://arxiv.org/abs/2509.00969v2
- Date: Tue, 09 Sep 2025 03:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.781801
- Title: Seeing More, Saying More: Lightweight Language Experts are Dynamic Video Token Compressors
- Title(参考訳): 軽量な言語エキスパートはダイナミックビデオのトーケン圧縮機だ
- Authors: Xiangchen Wang, Jinrui Zhang, Teng Wang, Haigang Zhang, Feng Zheng,
- Abstract要約: LangDCは、ビデオクリップを表現するための言語対応のDynamic Tokenである。
LangDCは、下流のタスク推論に必要な重要な視覚的手がかりをカバーしている。
FLOPをビデオGPT+に比べて49%削減する。
- 参考スコア(独自算出の注目度): 43.276827349303325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large video-language models have revolutionized video understanding tasks. However, their efficiency is significantly constrained by processing high volumes of visual tokens. Existing token compression strategies apply a fixed compression ratio, ignoring the variability in semantic density among different video clips. Consequently, this lead to inadequate representation of information-rich clips due to insufficient tokens and unnecessary computation on static or content-poor ones. To address this, we propose LangDC, a Language-aware Dynamic Token Compressor. LangDC leverages a lightweight language model to describe video clips, converting them into soft caption tokens as visual representations. Trained with our proposed semantic density-aware supervision, LangDC aims to 1) cover key visual cues necessary for downstream task reasoning and 2) dynamically adjust compression ratios based on scene richness, reflected by descriptions length. Our design mimics how humans dynamically express what they see: complex scenes (seeing more) elicit more detailed language to convey nuances (saying more), whereas simpler scenes are described with fewer words. Experimental results show that our method reduces FLOPs by 49% compared to VideoGPT+ while maintaining competitive performance. Furthermore, qualitative results demonstrate our approach adaptively adjusts the token compression ratio based on video segment richness.
- Abstract(参考訳): 大規模なビデオ言語モデルの最近の進歩は、ビデオ理解タスクに革命をもたらした。
しかし、その効率は大量の視覚トークンを処理することで著しく制約される。
既存のトークン圧縮戦略は固定圧縮比を適用し、異なるビデオクリップ間の意味密度の変動を無視する。
結果として、トークン不足や静的またはコンテンツ貧弱なコードに対する不必要な計算のために、情報リッチなクリップの表現が不十分になる。
そこで本稿では,言語対応動的トーケン圧縮機であるLangDCを提案する。
LangDCは、ビデオクリップを記述するための軽量言語モデルを活用し、それらを視覚表現としてソフトキャプショントークンに変換する。
LangDCは、セマンティック・デシデント・アウェア・インフォメーションによってトレーニングされており、その目的は、セマンティック・デシデント・アウェア・インフォメーション(SDA)である。
1)下流作業推論に必要な重要な視覚的手がかりをカバーし、
2) シーンの豊かさに基づいて圧縮率を動的に調整し, 記述長を反映する。
私たちのデザインは、人間が見ているものを動的に表現する方法を模倣しています。複雑なシーン(詳細を見る)は、ニュアンスを伝えるためにより詳細な言語を導きます。
その結果,競合性能を維持しながら,ビデオGPT+に比べてFLOPを49%削減できることがわかった。
さらに,ビデオセグメントの豊かさに基づくトークン圧縮比を適応的に調整する手法を定性的に検証した。
関連論文リスト
- DynTok: Dynamic Compression of Visual Tokens for Efficient and Effective Video Understanding [17.319420726271876]
我々は,新しい textbfDynamic video textbfToken 圧縮戦略である DynTok を紹介する。
本手法は,トークンの数を,同等の性能を維持しつつ,元のサイズの44.4%に削減する。
論文 参考訳(メタデータ) (2025-06-04T14:17:42Z) - Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。