論文の概要: Tango: Taming Visual Signals for Efficient Video Large Language Models
- arxiv url: http://arxiv.org/abs/2604.09547v2
- Date: Mon, 13 Apr 2026 06:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 14:47:45.907519
- Title: Tango: Taming Visual Signals for Efficient Video Large Language Models
- Title(参考訳): Tango: 効率的なビデオ大言語モデルのための視覚信号のモデリング
- Authors: Shukang Yin, Sirui Zhao, Hanchao Wang, Baozhi Jia, Xianquan Wang, Chaoyou Fu, Enhong Chen,
- Abstract要約: この研究は、注目に基づく選択と類似性に基づくクラスタリングという、2つの主要なトークン処理パラダイムを再考し、進化させます。
これらのボトルネックに対処するために,視覚信号の利用を最適化する新しいフレームワークであるTangoを提案する。
- 参考スコア(独自算出の注目度): 51.43125826972642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token pruning has emerged as a mainstream approach for developing efficient Video Large Language Models (Video LLMs). This work revisits and advances the two predominant token-pruning paradigms: attention-based selection and similarity-based clustering. Our study reveals two critical limitations in existing methods: (1) conventional top-k selection strategies fail to fully account for the attention distribution, which is often spatially multi-modal and long-tailed in magnitude; and (2) direct similarity-based clustering frequently generates fragmented clusters, resulting in distorted representations after pooling. To address these bottlenecks, we propose Tango, a novel framework designed to optimize the utilization of visual signals. Tango integrates a diversity-driven strategy to enhance attention-based token selection, and introduces Spatio-temporal Rotary Position Embedding (ST-RoPE) to preserve geometric structure via locality priors. Comprehensive experiments across various Video LLMs and video understanding benchmarks demonstrate the effectiveness and generalizability of our approach. Notably, when retaining only 10% of the video tokens, Tango preserves 98.9% of the original performance on LLaVA-OV while delivering a 1.88$\times$ inference speedup.
- Abstract(参考訳): トーケンプルーニングは、効率的なビデオ大言語モデル(Video Large Language Models, Video LLMs)を開発するための主流のアプローチとして登場した。
この研究は、注目に基づく選択と類似性に基づくクラスタリングという、2つの主要なトークン処理パラダイムを再考し、進化させます。
本研究は,(1)従来のトップk選択戦略では,空間的に多モーダルで長い尾を持つアテンション分布を十分に考慮できないこと,(2)直接類似性に基づくクラスタリングでは,フラグメントクラスタが頻繁に生成され,プール後の表現が歪むこと,の2つの限界を明らかにした。
これらのボトルネックに対処するために,視覚信号の利用を最適化する新しいフレームワークであるTangoを提案する。
Tangoは、注意に基づくトークン選択を強化するために、多様性駆動型戦略を統合し、局所性による幾何学的構造を維持するために、時空間回転位置埋め込み(ST-RoPE)を導入している。
様々なビデオLLMおよびビデオ理解ベンチマークの総合的な実験は、我々のアプローチの有効性と一般化性を実証している。
特に、ビデオトークンの10%しか保持していない場合、TangoはLLaVA-OVのオリジナルパフォーマンスの98.9%を保存し、1.88$\times$推論スピードアップを提供する。
関連論文リスト
- Beyond Pedestrians: Caption-Guided CLIP Framework for High-Difficulty Video-based Person Re-Identification [0.0]
テキスト記述と学習可能なトークンを活用するキャプション誘導型CLIPフレームワークを提案する。
我々は2つの標準データセットと2つの新しく構築された高次データセットに対するアプローチを評価する。
実験により,本手法は現在の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-04-09T02:55:51Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。