論文の概要: AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding
- arxiv url: http://arxiv.org/abs/2604.08077v1
- Date: Thu, 09 Apr 2026 10:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.869184
- Title: AdaSpark: Adaptive Sparsity for Efficient Long-Video Understanding
- Title(参考訳): AdaSpark: 効率的な長時間ビデオ理解のための適応的なスパーシリティ
- Authors: Handong Li, Zikang Liu, Longteng Guo, Tongtian Yue, Yepeng Tang, Xinxin Zhu, Chuanyang Zheng, Ziming Wang, Zhibin Wang, Jun Song, Cheng Yu, Bo Zheng, Jing Liu,
- Abstract要約: 本稿では、長距離時間モデリングの制約に対処するために設計された適応型空間性フレームワークであるAdaSparkを紹介する。
AdaSparkは、挑戦的な時間スケールのビデオベンチマークで検証されているように、計算負荷を最大57%削減し、きめ細かい長距離依存関係を保存する。
- 参考スコア(独自算出の注目度): 57.46793076689158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Processing long-form videos with Video Large Language Models (Video-LLMs) is computationally prohibitive. Current efficiency methods often compromise fine-grained perception through irreversible information disposal or inhibit long-range temporal modeling via rigid, predefined sparse patterns. This paper introduces AdaSpark, an adaptive sparsity framework designed to address these limitations. AdaSpark first partitions video inputs into 3D spatio-temporal cubes. It then employs two co-designed, context-aware components: (1) Adaptive Cube-Selective Attention (AdaS-Attn), which adaptively selects a subset of relevant video cubes to attend for each query token, and (2) Adaptive Token-Selective FFN (AdaS-FFN), which selectively processes only the most salient tokens within each cube. An entropy-based (Top-p) selection mechanism adaptively allocates computational resources based on input complexity. Experiments demonstrate that AdaSpark significantly reduces computational load by up to 57% FLOPs while maintaining comparable performance to dense models and preserving fine-grained, long-range dependencies, as validated on challenging hour-scale video benchmarks.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, Video-LLMs) による長文ビデオの処理は、計算的に禁止されている。
現在の効率性は、しばしば、不可逆的な情報処理によってきめ細かな知覚を損なうか、厳密で定義されたスパースパターンによる長距離時間モデリングを阻害する。
本稿では,これらの制約に対処するために設計された適応型空間性フレームワークであるAdaSparkを紹介する。
AdaSparkはまず、ビデオ入力を3Dの時空間立方体に分割する。
1) アダプティブキューブ選択注意(AdaS-Attn)、(2)アダプティブToken-Selective FFN(AdaS-FFN)はキューブ内で最も高いトークンのみを選択的に処理する。
エントロピーに基づく(Top-p)選択機構は、入力複雑性に基づいて、適応的に計算資源を割り当てる。
実験によると、AdaSparkは計算負荷を最大57%削減し、高密度なモデルに匹敵するパフォーマンスを維持し、細粒度で長距離の依存関係を保ち、挑戦的な時間スケールビデオベンチマークで検証している。
関連論文リスト
- Test-Time Temporal Sampling for Efficient MLLM Video Understanding [26.144261085897863]
Test-Time Temporal Sampling (T3S) は、MLLMが効率よくかつ効果的に長編ビデオを処理できるトレーニングフリーのプラグアンドプレイ推論ラッパーである。
我々の手法は推論時に完全に動作し、モデル修正や微調整は不要であり、幅広い事前訓練されたMLLMと互換性がある。
論文 参考訳(メタデータ) (2025-11-22T06:59:21Z) - FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - BIMBA: Selective-Scan Compression for Long-Range Video Question Answering [46.199493246921435]
長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。
長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:57:32Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。