論文の概要: OTT-Vid: Optimal Transport Temporal Token Compression for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2605.11803v1
- Date: Tue, 12 May 2026 08:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.73566
- Title: OTT-Vid: Optimal Transport Temporal Token Compression for Video Large Language Models
- Title(参考訳): OTT-Vid:ビデオ大言語モデルにおける最適輸送時音声圧縮
- Authors: Minseok Kang, Minhyeok Lee, Jungho Lee, Minjung Kim, Donghyeong Kim, Dayeon Lee, Heeseung Choi, Ig-jae Kim, Sangyoun Lee,
- Abstract要約: OTT-Vidは、時間的トークン圧縮のためのトランスポートから派生したアロケーションフレームワークである。
OTT-VidはVQAの95.8%、VTGのパフォーマンスの73.9%を維持し、トークンの10%しか保持していない。
- 参考スコア(独自算出の注目度): 39.853488828881986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Video Large Language Models (Video-LLMs) scale to longer and more complex videos, their inference cost grows rapidly due to the large volume of visual tokens accumulated across frames. Training-free token compression has emerged as a practical solution to this bottleneck. However, existing temporal compression methods rely primarily on cross-frame token similarity or segmentation heuristics, overlooking each token's semantic role within its frame and failing to adapt compression strength to the compressibility of each frame pair. In this work, we propose OTT-Vid, a transport-derived allocation framework for temporal token compression. Our approach consists of two stages: spatial pruning identifies representative content within each frame, and optimal transport (OT) is then solved between neighboring frames to estimate temporal compressibility. We formulate this OT with non-uniform token mass, which protects semantically important tokens from aggressive compression, and a locality-aware cost that captures both feature and spatial disparities. The resulting transport plan jointly balances token importance and matching cost, while its total cost defines the transport difficulty of each frame pair, which we use to allocate compression budgets dynamically. Experiments on six benchmarks spanning video question answering and temporal grounding show that OTT-Vid preserves 95.8% of VQA and 73.9% of VTG performance while retaining only 10% of tokens, consistently outperforming existing state-of-the-art training-free compression methods.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, Video-LLMs) がより長い複雑なビデオにスケールするにつれて、フレーム間で蓄積される大量のビジュアルトークンのために、その推論コストは急速に増大する。
このボトルネックに対する実践的な解決策として、トレーニング不要なトークン圧縮が登場している。
しかし、既存の時間圧縮法は主にクロスフレームトークンの類似性やセグメンテーションヒューリスティックに依存し、フレーム内の各トークンの意味的役割を見落とし、各フレームペアの圧縮性に圧縮強度を適応させることができなかった。
本研究では,時間的トークン圧縮のためのトランスポート型アロケーションフレームワークであるOTT-Vidを提案する。
提案手法は, 空間的プルーニングによって各フレーム内の代表的内容が特定され, 隣接するフレーム間での最適輸送(OT)が解決され, 時間的圧縮性を推定する。
我々はこのOTを、意味的に重要なトークンを攻撃的圧縮から保護する非一様トークン質量と、特徴と空間的格差の両方をキャプチャする局所性認識コストとで定式化する。
結果として得られた輸送計画はトークンの重要度と一致コストを両立させ,その総コストは,圧縮予算を動的に割り当てるために使用する各フレームペアの輸送難度を定義する。
OTT-VidはVQAの95.8%とVTGのパフォーマンスの73.9%を維持し、トークンの10%しか保持していない。
関連論文リスト
- Small Vision-Language Models are Smart Compressors for Long Video Understanding [73.65465038390771]
長時間のビデオ理解は、欲求に満ちたコンテキストではなく、意図駆動の効率に頼っている。
本稿では,下流の理解のために長い動画を圧縮する効率的なクエリ認識フレームワークであるTempoを提案する。
テストでは、Tempoが1時間のビデオを理論的限界以下に圧縮し、真のロングフォームビデオ理解が意図駆動の効率に依存することを示した。
論文 参考訳(メタデータ) (2026-04-09T11:40:25Z) - Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention [23.015486635502437]
ビデオ言語モデル(ビデオ-LLM)は、大量の視覚トークンのために高い計算コストに直面している。
グローバルな選択トークンに意味的類似性を重み付けする統一選択機構を提案する。
選択されていないトークンはクラスタリングとリフィルによってマージされ、情報の整合性を保持する。
我々の統合的時間トークン圧縮戦略は,超低トークン保持下での映像理解における最先端技術を確立する。
論文 参考訳(メタデータ) (2026-03-23T13:15:22Z) - Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding [16.537148896706036]
Video Temporal Grounding (VTG)は、クエリ関連モーメントの時間的境界を、長い、トリミングされていないビデオでローカライズする。
本稿では,セマンティックな役割を持つコンパクトだがコヒーレントなトークンサブセットを構成する,トレーニング不要なプルーニングフレームワークSemVIDを提案する。
論文 参考訳(メタデータ) (2026-03-05T20:25:32Z) - StreamingTOM: Streaming Token Compression for Efficient Video Understanding [6.9203477336374775]
既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらない。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
実験では, 従来のSOTAと比較して, 15.7 時間で kv-cache 圧縮, 12 時間で低ピークメモリ, 2 時間で速い TTFT 圧縮を実現している。
論文 参考訳(メタデータ) (2025-10-21T03:39:41Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。