論文の概要: ZAYA1-VL-8B Technical Report
- arxiv url: http://arxiv.org/abs/2605.08560v1
- Date: Fri, 08 May 2026 23:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.737538
- Title: ZAYA1-VL-8B Technical Report
- Title(参考訳): ZAYA1-VL-8B技術報告
- Authors: Hassan Shapourian, Kasra Hejazi, Olabode M. Sule, Beren Millidge,
- Abstract要約: 本稿では,ZAYA1-VL-8Bについて述べる。
コンパクトなサイズにもかかわらず、ZAYA1-VL は Molmo2-4B や InternVL3.5-4B といった主要なベースモデルと競合する性能を実現している。
モデルは9.2Bの総パラメータと、視覚エンコーダを含む1.4Bのアクティブパラメータで構成されている。
- 参考スコア(独自算出の注目度): 8.908951409226969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ZAYA1-VL-8B, a compact mixture-of-experts vision-language model built upon our in-house language model, ZAYA1-8B. Despite its compact size, ZAYA1-VL achieves performance competitive with leading base models such as Molmo2-4B and InternVL3.5-4B, while surpassing models including Qwen2.5-VL-3B, PLM-3B, and MolmoE-1B across a range of image understanding, reasoning, and counting benchmarks. The architecture incorporates two key innovations: (1) vision-specific LoRA adapters integrated into the LLM to increase modality-specific capacity without increasing the number of experts, and (2) bidirectional attention over image tokens within the LLM to enhance visual understanding. We detail the full training pipeline including data composition at each stage, sequence packing, and the attention masking scheme. The model comprises 9.2B total parameters, with 1.4B active parameters including the vision encoder, and is publicly available at https://huggingface.co/Zyphra/ZAYA1-VL.
- Abstract(参考訳): 本稿では,ZAYA1-VL-8Bについて述べる。
コンパクトなサイズにもかかわらず、ZAYA1-VLは、Qwen2.5-VL-3B、PLM-3B、MolmoE-1Bなど、様々な画像理解、推論、計数ベンチマークを上回りながら、Momo2-4BやInternVL3.5-4Bといった主要なベースモデルと性能を競う。
アーキテクチャには,(1)視覚固有のLoRAアダプタをLLMに統合し,専門家の数を増やすことなくモダリティ固有の能力を高めること,(2)視覚的理解を高めるためにLLM内の画像トークンに双方向の注意を払うこと,の2つの重要なイノベーションが含まれている。
各段階でのデータ合成、シーケンスパッキング、アテンションマスキングスキームを含む、完全なトレーニングパイプラインについて詳述する。
モデルには9.2Bの合計パラメータと、ビジョンエンコーダを含む1.4Bのアクティブパラメータが含まれており、https://huggingface.co/Zyphra/ZAYA1-VLで公開されている。
関連論文リスト
- AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model [40.488271586857884]
AndesVLはQwen3のLLMと様々なビジュアルエンコーダに基づいて0.6Bから4Bのパラメータを持つモバイル側のMLLMのスイートである。
効率的なタスク適応とモデル圧縮を容易にするために,Quantization-Aware LoRA Fine-Tuningフレームワークとともに1+N LoRAアーキテクチャを導入する。
我々は、MediaTek Dimensity 9500チップにAndesVL-4Bをデプロイする際に、最大6.7倍のピーク復号率、最大30.9%のメモリ削減、1.8ビット/ウェイトを実現した。
論文 参考訳(メタデータ) (2025-10-13T15:04:38Z) - SAIL-VL2 Technical Report [65.45818722427506]
広義のマルチモーダル理解と推論のためのオープン・スイート・ビジョン・ファンデーション・モデル(LVM)であるSAIL-VL2を紹介する。
SAIL-VL2は2Bと8Bのパラメータスケールで様々な画像とビデオのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-17T14:34:02Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。