論文の概要: Viper-F1: Fast and Fine-Grained Multimodal Understanding with Cross-Modal State-Space Modulation
- arxiv url: http://arxiv.org/abs/2511.11177v3
- Date: Tue, 18 Nov 2025 07:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.677037
- Title: Viper-F1: Fast and Fine-Grained Multimodal Understanding with Cross-Modal State-Space Modulation
- Title(参考訳): Viper-F1: クロスモーダル状態空間変調による高速かつ微細なマルチモーダル理解
- Authors: Quoc-Huy Trinh, Mustapha Abdullahi, Do Duy Hung Trinh, Bo Zhao, Debesh Jha,
- Abstract要約: 本稿では,効率的な液体状態空間ダイナミクスに置き換えるハイブリッド状態空間ビジョンランゲージモデルであるViper-F1を紹介する。
その結果,Viper-F1は精度が高く,精度が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 7.171333807979583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have enabled impressive progress in vision-language understanding, yet their high computational cost limits deployment in resource-constrained scenarios such as robotic manipulation, personal assistants, and smart cameras. Most existing methods rely on Transformer-based cross-attention, whose quadratic complexity hinders efficiency. Moreover, small vision-language models often struggle to precisely capture fine-grained, task-relevant visual regions, leading to degraded performance on fine-grained reasoning tasks that limit their effectiveness in the real world. To address these issues, we introduce Viper-F1, a Hybrid State-Space Vision-Language Model that replaces attention with efficient Liquid State-Space Dynamics. To further enhance visual grounding, we propose a Token-Grid Correlation Module, which computes lightweight correlations between text tokens and image patches and modulates the state-space dynamics via FiLM conditioning. This enables the model to selectively emphasize visual regions relevant to the textual prompt while maintaining linear-time inference. Experimental results across multiple benchmarks demonstrate that Viper-F1 achieves accurate, fine-grained understanding with significantly improved efficiency.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、視覚言語理解の顕著な進歩を実現しているが、ロボット操作、パーソナルアシスタント、スマートカメラなどのリソース制約のあるシナリオにおいて、高い計算コスト制限が展開されている。
既存の手法の多くはトランスフォーマーベースのクロスアテンションに依存しており、その2次複雑性は効率を妨げている。
さらに、小さな視覚言語モデルは、細粒度でタスク関連のある視覚領域を正確に捉えるのに苦労することが多く、現実の世界での有効性を制限する細粒度推論タスクの性能が低下する。
これらの問題に対処するため,効率的な液体状態空間ダイナミクスに置き換えるハイブリッド状態空間ビジョンランゲージモデルであるViper-F1を紹介した。
本研究では,テキストトークンと画像パッチ間の軽量な相関を計算し,FiLMコンディショニングにより状態空間のダイナミクスを変調するToken-Grid相関モジュールを提案する。
これにより、線形時間推論を維持しながら、テキストプロンプトに関連する視覚領域を選択的に強調することができる。
複数のベンチマークでの実験結果から、Viper-F1は正確できめ細かな理解を達成でき、効率は大幅に向上した。
関連論文リスト
- CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation [17.318287255400175]
本稿では,シームレスかつ効率的な視覚言語融合を実現する新しいLVLMであるLaViを提案する。
視覚トークンの結合に依存する支配的なLVLMとは異なり、LaViは長いコンテキスト拡張をバイパスする。
LLaVA-OV-7Bと比較して、LaViはFLOPを94.0%削減し、推論速度を3.1倍改善し、メモリ使用量を半分に削減した。
論文 参考訳(メタデータ) (2025-06-20T02:25:33Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models [16.91226496250909]
マルチモーダルな理解は、粗いものから細かいものへと、2つの段階に分けられる。
第1段階では,MLLMに回答のほぼ面積を特定するよう促す。
第2段階では、視覚的なプロンプトエンジニアリングにより、関連する領域に対するモデルの焦点をさらに強化する。
論文 参考訳(メタデータ) (2024-12-22T05:42:40Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。