論文の概要: AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding
- arxiv url: http://arxiv.org/abs/2603.28696v1
- Date: Mon, 30 Mar 2026 17:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.534309
- Title: AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding
- Title(参考訳): AdaptToken: MLLMロングビデオ理解のためのエントロピーに基づくAdaptive Token選択
- Authors: Haozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys,
- Abstract要約: AdaptTokenは、MLLMの自己不確実性を、長ビデオトークン選択のためのグローバルコントロール信号に変換する、トレーニング不要のフレームワークである。
常に精度(例えばQwen2.5-VL 7Bで平均で+6.7)を向上し、非常に長い入力(最大10Kフレーム)の恩恵を受け続けている。
推論時間を同等のパフォーマンスで約半分削減する。
- 参考スコア(独自算出の注目度): 81.07348307304547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long video understanding remains challenging for Multi-modal Large Language Models (MLLMs) due to high memory costs and context-length limits. Prior approaches mitigate this by scoring and selecting frames/tokens within short clips, but they lack a principled mechanism to (i) compare relevance across distant video clips and (ii) stop processing once sufficient evidence has been gathered. We propose AdaptToken, a training-free framework that turns an MLLM's self-uncertainty into a global control signal for long-video token selection. AdaptToken splits a video into groups, extracts cross-modal attention to rank tokens within each group, and uses the model's response entropy to estimate each group's prompt relevance. This entropy signal enables a global token budget allocation across groups and further supports early stopping (AdaptToken-Lite), skipping the remaining groups when the model becomes sufficiently certain. Across four long-video benchmarks (VideoMME, LongVideoBench, LVBench, and MLVU) and multiple base MLLMs (7B-72B), AdaptToken consistently improves accuracy (e.g., +6.7 on average over Qwen2.5-VL 7B) and continues to benefit from extremely long inputs (up to 10K frames), while AdaptToken-Lite reduces inference time by about half with comparable performance. Project page: https://haozheqi.github.io/adapt-token
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)では、メモリコストとコンテキスト長の制限のため、長いビデオ理解が依然として困難である。
以前のアプローチでは、短いクリップ内でフレームやトークンをスコアし、選択することで、これを緩和するが、原則化されたメカニズムは欠如している。
(i)遠距離ビデオクリップ間の関連性を比較して
二 十分な証拠が集められたときの処理を停止すること。
本稿では,MLLMの自己不確かさを長ビデオトークン選択のためのグローバル制御信号に変換する,トレーニング不要のフレームワークであるAdaptTokenを提案する。
AdaptTokenは、ビデオをグループに分割し、各グループ内のランクトークンに相互注意を抽出し、モデルの応答エントロピーを使用して各グループのプロンプト関連性を推定する。
このエントロピー信号は、グループ間でグローバルトークンの予算配分を可能にし、モデルが十分に確実になったときに残りのグループをスキップする早期停止(AdaptToken-Lite)をサポートする。
4つの長ビデオベンチマーク(VideoMME、LongVideoBench、LVBench、MLVU)と複数のベースMLLM(7B-72B)で、AdaptTokenは一貫して精度を向上し(例えばQwen2.5-VL 7Bで平均6.7)、非常に長い入力(最大10Kフレーム)の恩恵を受け続けている。
プロジェクトページ: https://haozheqi.github.io/adapt-token
関連論文リスト
- TrajTok: Learning Trajectory Tokens enables better Video Understanding [63.1260672430712]
ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
論文 参考訳(メタデータ) (2026-02-26T09:15:34Z) - Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models [24.875526594002434]
長いビデオ理解シナリオのための視覚トークン選択モジュールであるQTSplusを提案する。
Qwen2.5-VLに統合され、ビジョンストリームを textbf89% まで圧縮し、長いビデオでは textbf28% でエンドツーエンドのレイテンシを低減する。
以上の結果から,QTSplusはMLLMを現実世界の長ビデオシナリオに拡張するための,効果的で汎用的なメカニズムであることが示唆された。
論文 参考訳(メタデータ) (2025-11-14T22:41:27Z) - Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference [88.57742986765238]
Free-MoRefは、ビデオMLLMのコンテキスト認識能力を多重化するトレーニング不要のアプローチである。
実験によると、Free-MoRefは1つのA100 GPUで圧縮することなく、2$times$から8$times$の入力フレームを完全に認識できる。
論文 参考訳(メタデータ) (2025-08-04T07:31:10Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。