論文の概要: FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2601.13143v1
- Date: Mon, 19 Jan 2026 15:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.951486
- Title: FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference
- Title(参考訳): FastAV: オーディオビジュアル大言語モデル推論のための効率的なトーケンプルーニング
- Authors: Chaeyoung Jung, Youngjoon Jang, Seungwoo Lee, Joon Son Chung,
- Abstract要約: トークンプルーニングは、標準大言語モデル(LLM)と視覚言語モデル(LVLM)で活発に研究されている。
我々は、オーディオ視覚大言語モデル(AV-LLM)に適した最初のトークンプルーニングフレームワークであるFastAVを紹介する。
- 参考スコア(独自算出の注目度): 36.52166605489807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present FastAV, the first token pruning framework tailored for audio-visual large language models (AV-LLMs). While token pruning has been actively explored in standard large language models (LLMs) and vision-language models (LVLMs), its application to AV-LLMs has received little attention, even though multimodal integration substantially increases their token demands. To address this gap, we introduce a pruning strategy that utilizes attention weights to identify tokens emphasized at different stages and estimates their importance. Building on this analysis, FastAV applies a two-stage pruning strategy: (1) global pruning in intermediate layers to remove broadly less influential tokens, and (2) fine pruning in later layers considering the impact on next token generation. Notably, our method does not rely on full attention maps, which makes it fully compatible with efficient attention mechanisms such as FlashAttention. Extensive experiments demonstrate that FastAV reduces FLOPs by more than 40% on two representative AV-LLMs, while preserving or even improving model performance.
- Abstract(参考訳): 本稿では,音声-視覚的大言語モデル(AV-LLM)に適した最初のトークンプルーニングフレームワークであるFastAVを紹介する。
標準的な大規模言語モデル (LLMs) や視覚言語モデル (LVLMs) ではトークンプルーニングが盛んに行われているが、マルチモーダル統合はトークン要求を大幅に増加させるが、AV-LLMsへの応用はほとんど注目されていない。
このギャップに対処するために、注意重みを利用したプルーニング戦略を導入し、異なる段階で強調されたトークンを特定し、それらの重要性を推定する。
この分析に基づいてFastAVは、2段階のプルーニング戦略を適用している。(1) 中間層におけるグローバルプルーニングにより、広く影響の少ないトークンを除去し、(2) 次のトークン生成への影響を考慮した後層でのファインプルーニングである。
特に,本手法はフルアテンションマップに依存しないため,FlashAttentionなどの効率的なアテンション機構と完全に互換性がある。
大規模な実験により、FastAVは2つの代表的なAV-LLMにおいてFLOPを40%以上削減し、モデル性能を維持または改善することを示した。
関連論文リスト
- FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning [16.753299634529736]
マルチモーダル・大規模言語モデル (MLLM) は優れた性能を達成しているが、高解像度の視覚入力は視覚トークンの長いシーケンスと相当な推論遅延をもたらす。
冗長なビジュアルトークンの削減は、パフォーマンスを維持しながら計算/メモリの負担を軽減するために重要であり、リソース制約やレイテンシに敏感なシナリオでのMLLMデプロイメントを可能にする。
本稿では,Fast Multimodal Mixture-of-Experts (FastMMoE)を提案する。
論文 参考訳(メタデータ) (2025-11-22T02:25:00Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models [24.0346607116299]
iLLaVAは、現在のLVLM(Large Vision-Language Models)にシームレスにデプロイできるシンプルな方法である。
iLLaVAは、冗長トークンを正確で高速なアルゴリズムで発見し、徐々にマージすることでこれを達成している。
単一イメージ、マルチイメージ、ビデオを含むさまざまな領域にわたるタスクにおいて、iLLaVAは一貫して有望な効率で強力な一般化性を示す。
論文 参考訳(メタデータ) (2024-12-09T07:22:19Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。