論文の概要: AuroraEdge-V-2B: A Faster And Stronger Edge Visual Large Language Model
- arxiv url: http://arxiv.org/abs/2601.16615v1
- Date: Fri, 23 Jan 2026 10:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.627874
- Title: AuroraEdge-V-2B: A Faster And Stronger Edge Visual Large Language Model
- Title(参考訳): AuroraEdge-V-2B: より高速で強力なエッジビジュアル大言語モデル
- Authors: Xiang Chen,
- Abstract要約: 本稿では,エッジデプロイメントのためのコンパクトで堅牢で高速なビジュアル大言語モデルであるAuroraEdge-V-2Bを紹介する。
リアルタイムのパフォーマンスが向上し、デコードプロセスにおける視覚トークンの数が大幅に削減される。
9つのベンチマークで同じ数のパラメータを持つモデルよりも高いスコアを得る。
- 参考スコア(独自算出の注目度): 8.049753893207559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, due to the advancement of multimodal technology, people are attempting to use visual large language models (VLLMs) in industrial production. Many deep learning models (DLMs) deployed in the production environment are gradually being replaced by VLLMs. Compared with DLMs, VLLMs have some advantages in industrial applications: (1) Their strong generalization ability enables them to perform well across a wide range of tasks. (2) They are flexible and can deal with unfamiliar samples through context learning quickly. However, VLLMs also have obvious drawbacks: (1) VLLMs do not perform as well as custom-developed DLMs in specific domains. (2) The number of parameters in VLLMs is generally quite large, and their deployment requires substantial computational resources. (3) VLLMs generally operate much slower than DLMs, making real-time response challenging to achieve. To better utilize VLLMs in industrial applications, we introduce AuroraEdge-V-2B in this work, a compact, robust, and high-speed VLLM designed for edge deployment. To make the model run faster, we also propose a compression-fusion method to improve inference efficiency. AuroraEdge-V-2B has the following notable features: (1) Easy deployment and faster: It has only 2B parameters and is highly suitable for edge deployment, offering better real-time performance. (2) Fewer visual tokens and cheaper: It significantly reduces the number of visual tokens in the decoding process, thereby reducing the floating-point operations by half during inference and making it cheaper to use. (3) Strong performance: It gets a higher score on 9 benchmarks than models with the same number of parameter (e.g., Qwen2-VL-2B, Qwen2.5-VL-3B, InternVL-2.5-2B).
- Abstract(参考訳): 近年,マルチモーダル技術の発展により,視覚的大規模言語モデル(VLLM)を産業生産に利用しようと試みている。
実運用環境にデプロイされた多くのディープラーニングモデル(DLM)は、徐々にVLLMに置き換えられている。
DLMと比較して、VLLMは工業的応用においていくつかの利点がある。
2) 柔軟性があり, 文脈学習を通じて, 未知のサンプルを迅速に処理することができる。
しかしながら、VLLMには明らかな欠点がある: 1) VLLMは特定のドメインでのカスタム開発DLMと同等に動作しない。
2) VLLM のパラメータの数は概して非常に多く,その展開には相当な計算資源が必要である。
(3) VLLM は DLM よりも動作が遅く,リアルタイム応答が困難である。
産業アプリケーションにおけるVLLMをよりよく活用するために,エッジ展開用に設計されたコンパクトで堅牢で高速なVLLMであるAuroraEdge-V-2Bを導入する。
また,モデルの実行を高速化するために,推論効率を向上させる圧縮融合法を提案する。
AuroraEdge-V-2Bには次のような注目すべき機能がある。 1) デプロイの容易さと高速化: 2Bパラメータだけで、エッジデプロイメントに非常に適しており、リアルタイムのパフォーマンスが向上している。
2) 視覚トークンが少なくて安価: 復号処理における視覚トークンの数を著しく減らし, 推論中の浮動小数点演算を半分に減らし, 使用コストを下げる。
(3)強い性能:同じパラメータを持つモデル(例えば、Qwen2-VL-2B、Qwen2.5-VL-3B、InternVL-2.5-2B)よりも9つのベンチマークで高いスコアを得る。
関連論文リスト
- InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
大規模言語モデル(LLM)は、画像やビデオなどの視覚的データの強力な理解を示すマルチモーダルLLMの作成を可能にする。
多様な効率要件を満たすマルチモーダルLCMの学習自由適応推論法を提案する。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。