論文の概要: Jina-VLM: Small Multilingual Vision Language Model
- arxiv url: http://arxiv.org/abs/2512.04032v1
- Date: Wed, 03 Dec 2025 18:13:41 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:31.707595
- Title: Jina-VLM: Small Multilingual Vision Language Model
- Title(参考訳): Jina-VLM:小型多言語視覚言語モデル
- Authors: Andreas Koukounas, Georgios Mastrapas, Florian Hönicke, Sedigheh Eslami, Guillaume Roncari, Scott Martens, Han Xiao,
- Abstract要約: Jina-VLMは、オープンな2BスケールのVLMのうち、最先端の多言語視覚質問応答を実現する2.4Bパラメータビジョン言語モデルである。
このモデルは、任意の解像度画像のトークン効率の良い処理を可能にする注目プーリングコネクタを介して、Qwen3言語バックボーンとSigLIP2ビジョンエンコーダを結合する。
- 参考スコア(独自算出の注目度): 5.228874650305191
- License:
- Abstract: We present Jina-VLM, a 2.4B parameter vision-language model that achieves state-of-the-art multilingual visual question answering among open 2B-scale VLMs. The model couples a SigLIP2 vision encoder with a Qwen3 language backbone through an attention-pooling connector that enables token-efficient processing of arbitrary-resolution images. Across standard VQA benchmarks and multilingual evaluations, Jina-VLM outperforms comparable models while preserving competitive text-only performance.
- Abstract(参考訳): オープンな2BスケールのVLMのうち、最先端の多言語視覚質問応答を実現する2.4Bパラメータ・ビジョン言語モデルであるJina-VLMを提案する。
このモデルは、任意の解像度画像のトークン効率の良い処理を可能にする注目プーリングコネクタを介して、Qwen3言語バックボーンとSigLIP2ビジョンエンコーダを結合する。
標準的なVQAベンチマークと多言語評価の他、Jina-VLMは競合するテキストのみのパフォーマンスを維持しながら、同等のモデルより優れている。
関連論文リスト
- MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models [0.09895793818721334]
視覚言語モデル(MASSV)の投機的復号化のためのマルチモーダル適応と自己データ蒸留を導入する。
MASSVは、既存の小さな言語モデルを2段階のアプローチで効果的なマルチモーダルドラフトに変換する。
Qwen2.5-VL と Gemma3 モデルファミリでの実験では、MASSV が許容される長さを最大30%増加し、視覚的に接地されたタスクで最大 1.46 倍のエンドツーエンドの推論速度を提供することを示した。
論文 参考訳(メタデータ) (2025-05-15T17:37:00Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-06T13:04:39Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - Qwen-VL: A Versatile Vision-Language Model for Understanding,
Localization, Text Reading, and Beyond [72.41822115096741]
大規模視覚言語モデル(LVLM)の集合であるQwen-VLシリーズを紹介する。
視覚能力は, (i) 視覚受容体, (ii) 入力出力インタフェース, (iii) 3段階トレーニングパイプライン, (iv) 多言語マルチモーダルクリーンコーパスによって実現された。
Qwen-VLやQwen-VL-Chatを含む結果のモデルは、同様のモデルスケールでジェネラリストモデルに新しいレコードを設定した。
論文 参考訳(メタデータ) (2023-08-24T17:59:17Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。