Fugu-MT 論文翻訳(概要): KiToke: Kernel-based Interval-aware Token Compression for Video Large Language Models

論文の概要: KiToke: Kernel-based Interval-aware Token Compression for Video Large Language Models

arxiv url: http://arxiv.org/abs/2604.03414v1
Date: Fri, 03 Apr 2026 19:18:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:18.561797
Title: KiToke: Kernel-based Interval-aware Token Compression for Video Large Language Models
Title（参考訳）: KiToke:ビデオ大言語モデルのためのカーネルベースのインターバル対応トーケン圧縮
Authors: Haifeng Huang, Yang Li,
Abstract要約: KiTokeは、トレーニング不要でクエリに依存しないトークン圧縮アプローチである。カーネルベースの測度を用いて,トークンの多様性を世界規模で推定する。実験の結果, KiToke は既存のトレーニング不要圧縮法よりも優れていた。
参考スコア（独自算出の注目度）: 12.489375650998554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Large Language Models (Video LLMs) achieve strong performance on video understanding tasks but suffer from high inference costs due to the large number of visual tokens. We propose KiToke, a training-free, query-agnostic token compression approach that reduces spatiotemporal redundancy while preserving critical visual information. Our method estimates token diversity globally using a kernel-based redundancy measure, enabling content-adaptive selection that remains effective under extreme token budgets, and further introduces a lightweight temporal interval construction with interval-aware token merging to maintain temporal coherence. Unlike prior methods that rely on local or segment-level heuristics, KiToke explicitly captures global redundancy across an entire video, leading to more efficient token utilization. Extensive experiments on multiple video understanding benchmarks and Video LLM backbones demonstrate that KiToke consistently outperforms existing training-free compression methods, with particularly large gains at aggressive retention ratios down to 1%.
Abstract（参考訳）: ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は, 映像理解タスクにおいて高い性能を達成するが, 多数の視覚トークンにより高い推論コストを被る。トレーニング不要でクエリに依存しないトークン圧縮手法であるKiTokeを提案する。提案手法では,カーネルベースの冗長度尺度を用いてトークンの多様性を世界規模で推定し,極端トークン予算の下で有効なコンテンツ適応的選択を可能にするとともに,時間的コヒーレンスを維持するために,時間的トークンをマージした軽量な時間的間隔構成を導入する。ローカルやセグメントレベルのヒューリスティックに依存する従来の方法とは異なり、KiTokeはビデオ全体のグローバルな冗長性を明示的にキャプチャし、より効率的なトークン利用につながる。複数のビデオ理解ベンチマークとビデオLLMバックボーンに関する大規模な実験は、KiTokeが既存のトレーニングなし圧縮手法を一貫して上回り、特にアグレッシブな保持率で1%まで上昇していることを示している。

関連論文リスト

Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention [23.015486635502437]
ビデオ言語モデル(ビデオ-LLM)は、大量の視覚トークンのために高い計算コストに直面している。グローバルな選択トークンに意味的類似性を重み付けする統一選択機構を提案する。選択されていないトークンはクラスタリングとリフィルによってマージされ、情報の整合性を保持する。我々の統合的時間トークン圧縮戦略は,超低トークン保持下での映像理解における最先端技術を確立する。
論文参考訳（メタデータ） (2026-03-23T13:15:22Z)
Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models [61.11154533305096]
ビデオ大言語モデル(VLLM)は、強力なビデオ理解を示すが、冗長な視覚トークンによる非効率性に悩まされる。フレーム内およびフレーム間コンテキスト内でトークン textbfAnchors を詳述する新しい視点を提案する。提案するAOTは,先行するビデオLLMのショート・ビデオベンチマークとロング・ビデオベンチマークの競合性能を比較検討する。
論文参考訳（メタデータ） (2026-03-02T03:06:40Z)
FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文参考訳（メタデータ） (2025-10-31T17:29:39Z)
VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。 DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文参考訳（メタデータ） (2024-11-21T18:30:11Z)
CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文参考訳（メタデータ） (2022-05-02T12:02:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。