論文の概要: HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
- arxiv url: http://arxiv.org/abs/2512.14052v1
- Date: Tue, 16 Dec 2025 03:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.573475
- Title: HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices
- Title(参考訳): HyperVL:エッジデバイスのための効率的かつ動的マルチモーダル大言語モデル
- Authors: HyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang,
- Abstract要約: 現在の大きなラナウジュモデルは強い知覚と推論能力を持っている。
高い計算とメモリの要求により、デバイス上で直接デプロイすることが困難になる。
デバイス上での推論に適したマルチモーダルな大規模言語モデルであるHyperVLを紹介する。
- 参考スコア(独自算出の注目度): 33.126787921005736
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current multimodal large lanauge models possess strong perceptual and reasoning capabilities, however high computational and memory requirements make them difficult to deploy directly on on-device environments. While small-parameter models are progressively endowed with strong general capabilities, standard Vision Transformer (ViT) encoders remain a critical bottleneck, suffering from excessive latency and memory consumption when processing high-resolution inputs.To address these challenges, we introduce HyperVL, an efficient multimodal large language model tailored for on-device inference. HyperVL adopts an image-tiling strategy to cap peak memory usage and incorporates two novel techniques: (1) a Visual Resolution Compressor (VRC) that adaptively predicts optimal encoding resolutions to eliminate redundant computation, and (2) Dual Consistency Learning (DCL), which aligns multi-scale ViT encoders within a unified framework, enabling dynamic switching between visual branches under a shared LLM. Extensive experiments demonstrate that HyperVL achieves state-of-the-art performance among models of comparable size across multiple benchmarks. Furthermore, it significantly significantly reduces latency and power consumption on real mobile devices, demonstrating its practicality for on-device multimodal inference.
- Abstract(参考訳): 現在のマルチモーダル大規模ラナウジュモデルは、知覚能力と推論能力が強いが、高い計算量とメモリ要求により、デバイス上で直接デプロイすることは困難である。
この課題に対処するために、デバイス上での推論に適した効率的なマルチモーダルな大規模言語モデルであるHyperVLを導入する。
HyperVLは,ピークメモリ使用率を最大化するためのイメージチルト戦略を採用し,(1)冗長計算をなくすために最適な符号化解像度を適応的に予測するビジュアル解像度圧縮器(VRC)と,2)複数スケールのViTエンコーダを統一されたフレームワーク内で整列させ,共有LLMの下で視覚枝間の動的切替を可能にするデュアル一貫性学習(DCL)という2つの新しい手法を取り入れている。
大規模な実験により、HyperVLは複数のベンチマークで比較可能なサイズのモデル間で、最先端のパフォーマンスを実現している。
さらに、実際のモバイルデバイス上でのレイテンシと消費電力を大幅に削減し、デバイス上でのマルチモーダル推論の実用性を実証した。
関連論文リスト
- OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。