論文の概要: Event-Priori-Based Vision-Language Model for Efficient Visual Understanding
- arxiv url: http://arxiv.org/abs/2506.07627v1
- Date: Mon, 09 Jun 2025 10:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.917192
- Title: Event-Priori-Based Vision-Language Model for Efficient Visual Understanding
- Title(参考訳): イベントプリオリに基づく視覚理解のための視覚言語モデル
- Authors: Haotong Qin, Cheng Hu, Michele Magno,
- Abstract要約: Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
- 参考スコア(独自算出の注目度): 13.540340702321911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based Vision-Language Models (VLMs) have substantially extended the boundaries of visual understanding capabilities. However, their high computational demands hinder deployment on resource-constrained edge devices. A key source of inefficiency stems from the VLM's need to process dense and redundant visual information. Visual inputs contain significant regions irrelevant to text semantics, rendering the associated computations ineffective for inference. This paper introduces a novel Event-Priori-Based Vision-Language Model, termed EP-VLM. Its core contribution is a novel mechanism leveraging motion priors derived from dynamic event vision to enhance VLM efficiency. Inspired by human visual cognition, EP-VLM first employs event data to guide the patch-wise sparsification of RGB visual inputs, progressively concentrating VLM computation on salient regions of the visual input. Subsequently, we construct a position-preserving tokenization strategy for the visual encoder within the VLM architecture. This strategy processes the event-guided, unstructured, sparse visual input while accurately preserving positional understanding within the visual input. Experimental results demonstrate that EP-VLM achieves significant efficiency improvements while maintaining nearly lossless accuracy compared to baseline models from the Qwen2-VL series. For instance, against the original Qwen2-VL-2B, EP-VLM achieves 50% FLOPs savings while retaining 98% of the original accuracy on the RealWorldQA dataset. This work demonstrates the potential of event-based vision priors for improving VLM inference efficiency, paving the way for creating more efficient and deployable VLMs for sustainable visual understanding at the edge.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく視覚言語モデル(VLM)は、視覚理解能力の境界を大幅に拡張した。
しかし、その高い計算要求は、リソース制約のあるエッジデバイスへのデプロイメントを妨げる。
不効率の重要な原因は、VLMが高密度で冗長な視覚情報を処理する必要があることにある。
視覚入力はテキストセマンティクスとは無関係な重要な領域を含み、関連する計算は推論に有効ではない。
本稿では,EP-VLMと呼ばれるイベントプリオリに基づく視覚言語モデルを提案する。
そのコアコントリビューションは、動的事象ビジョンから派生した動き先を活用して、VLM効率を向上させる新しいメカニズムである。
人間の視覚認知にインスパイアされたEP-VLMは、まずイベントデータを用いて、RGB視覚入力のパッチワイドスペーシングをガイドし、視覚入力の健全な領域にVLM計算を徐々に集中させる。
次に,VLMアーキテクチャ内の視覚エンコーダの位置保存トークン化戦略を構築する。
この戦略は、視覚入力内の位置理解を正確に保存しながら、イベント誘導された、構造化されていない、スパースな視覚入力を処理する。
実験により, EP-VLMはQwen2-VLシリーズのベースラインモデルと比較して, ほぼロスレス精度を維持しつつ, 大幅な効率向上を実現していることが示された。
例えば、オリジナルのQwen2-VL-2Bに対して、EP-VLMは、RealWorldQAデータセットで元の精度の98%を維持しながら50%のFLOPの節約を達成する。
この研究は、VLM推論効率を改善し、エッジでの持続可能な視覚的理解のために、より効率的でデプロイ可能なVLMを作成する方法を確立するための、イベントベースのビジョン先行の可能性を実証する。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - A-VL: Adaptive Attention for Large Vision-Language Models [10.027871150748956]
LVLM(Large Vision-Language Model)は、コンピュータビジョンと自然言語処理技術を統合し、アプリケーションの可能性を高める。
現在の適応アダプティブアテンション手法はトランスフォーマーベースの言語モデルのメモリ要求を大幅に削減する。
我々は、LVLMがリモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持つのを観察した。
LVLM推論に適したプラグアンドプレイ適応型アダプティブアテンションであるA-VLを開発した。
論文 参考訳(メタデータ) (2024-09-23T09:22:59Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。