論文の概要: Triage: Hierarchical Visual Budgeting for Efficient Video Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.22959v1
- Date: Fri, 30 Jan 2026 13:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.466415
- Title: Triage: Hierarchical Visual Budgeting for Efficient Video Reasoning in Vision-Language Models
- Title(参考訳): トリアージ:視覚言語モデルにおける効率的なビデオ推論のための階層的視覚予算化
- Authors: Anmin Wang, Nan Zhang, Wei Tao, Xiaoyang Qu, Guokuan Li, Jiguang Wan, Jianzong Wang,
- Abstract要約: Triageはトレーニング不要のプラグイン・アンド・プレイフレームワークで、階層的な視覚的予算化を通じて、ビデオ推論をリソース割り当ての問題として再設計する。
推論速度を向上し、メモリフットプリントを削減し、さまざまなビデオ推論ベンチマークでベースラインや他のメソッドのパフォーマンスを維持または超過する。
- 参考スコア(独自算出の注目度): 39.94984753396033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) face significant computational challenges in video processing due to massive data redundancy, which creates prohibitively long token sequences. To address this, we introduce Triage, a training-free, plug-and-play framework that reframes video reasoning as a resource allocation problem via hierarchical visual budgeting. Its first stage, Frame-Level Budgeting, identifies keyframes by evaluating their visual dynamics and relevance, generating a strategic prior based on their importance scores. Guided by this prior, the second stage, Token-Level Budgeting, allocates tokens in two phases: it first secures high-relevance Core Tokens, followed by diverse Context Tokens selected with an efficient batched Maximal Marginal Relevance (MMR) algorithm. Extensive experiments demonstrate that Triage improves inference speed and reduces memory footprint, while maintaining or surpassing the performance of baselines and other methods on various video reasoning benchmarks.
- Abstract(参考訳): VLM(Vision-Language Models)は、巨大なデータ冗長性のため、ビデオ処理において重大な計算上の課題に直面し、極端に長いトークンシーケンスを生成する。
そこで本研究では,映像推論を階層的視覚予算化による資源配分問題として再設計する,トレーニングフリーのプラグイン・アンド・プレイフレームワークであるTriageを紹介する。
その最初のステージであるFrame-Level Budgetingは、彼らの視覚力学と関連性を評価して、その重要性のスコアに基づいて戦略的事前を生成することで、キーフレームを識別する。
2番目のステージであるToken-Level Budgetingでは、トークンを2つのフェーズに割り当てている。
大規模な実験により、Triageは推論速度を向上し、メモリフットプリントを削減し、さまざまなビデオ推論ベンチマークでベースラインや他のメソッドのパフォーマンスを維持または超えることを示した。
関連論文リスト
- Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs [67.75865317787708]
MMG-Vidは、ビデオ理解のためのトレーニング不要なビジュアルトークンプルーニングフレームワークである。
MMG-Vidはオリジナルのパフォーマンスの99.5%以上を維持でき、視覚トークンの75%を効果的に削減できることを示す。
論文 参考訳(メタデータ) (2025-08-28T17:50:03Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。