論文の概要: VARCO-VISION-2.0 Technical Report
- arxiv url: http://arxiv.org/abs/2509.10105v1
- Date: Fri, 12 Sep 2025 09:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.043271
- Title: VARCO-VISION-2.0 Technical Report
- Title(参考訳): VARCO-VISION-2.0テクニカルレポート
- Authors: Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim,
- Abstract要約: VARCO-VISION-2.0は、韓国語と英語のためのオープンウェイトバイリンガル視覚言語モデルである。
このモデルは、文書、チャート、テーブルなどの複雑な入力に対するマルチイメージ理解をサポートし、レイアウト対応のOCRを提供する。
フルスケールの14Bモデルと軽量の1.7Bモデルである。
- 参考スコア(独自算出の注目度): 5.50851195473534
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model (VLM) for Korean and English with improved capabilities compared to the previous model VARCO-VISION-14B. The model supports multi-image understanding for complex inputs such as documents, charts, and tables, and delivers layoutaware OCR by predicting both textual content and its spatial location. Trained with a four-stage curriculum with memory-efficient techniques, the model achieves enhanced multimodal alignment, while preserving core language abilities and improving safety via preference optimization. Extensive benchmark evaluations demonstrate strong spatial grounding and competitive results for both languages, with the 14B model achieving 8th place on the OpenCompass VLM leaderboard among models of comparable scale. Alongside the 14B-scale model, we release a 1.7B version optimized for on-device deployment. We believe these models advance the development of bilingual VLMs and their practical applications. Two variants of VARCO-VISION-2.0 are available at Hugging Face: a full-scale 14B model and a lightweight 1.7B model.
- Abstract(参考訳): VARCO-VISION-2.0は,従来のVARCO-VISION-14Bに比較して,韓国語と英語のためのオープンウェイトバイリンガル視覚言語モデル(VLM)である。
このモデルは、文書、チャート、テーブルなどの複雑な入力に対するマルチイメージ理解をサポートし、テキストの内容と空間的位置の両方を予測することでレイアウトを意識したOCRを提供する。
メモリ効率のよい4段階のカリキュラムでトレーニングされたこのモデルは、コア言語能力を維持しつつ、マルチモーダルアライメントの向上を実現し、優先最適化による安全性の向上を実現している。
大規模なベンチマーク評価では、両言語に強い空間的接点と競争力があり、14BモデルはOpenCompass VLMのリーダーボードで8位を獲得している。
14Bスケールモデルに加えて、デバイス上のデプロイメントに最適化された1.7Bバージョンをリリースしています。
これらのモデルはバイリンガルVLMの開発と実用化を推進していると我々は信じている。
フルスケールの14Bモデルと軽量の1.7Bモデルである。
関連論文リスト
- Bielik 11B v2 Technical Report [0.0]
Bielik 11B v2はポーランドのテキスト処理に最適化された最先端の言語モデルである。
Mistral 7B v0.2アーキテクチャ上に構築され、深度アップスケーリングを使用して11Bパラメータに拡張された。
Weighted Instruction Cross-Entropy LossとAdaptive Learning Rateの2つの重要な技術革新を紹介します。
論文 参考訳(メタデータ) (2025-05-05T07:03:41Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models [7.343894708908458]
本稿では,VLM(VARCO-VISION)をオープンソースとして導入する。
我々は、モデルが言語情報と視覚情報の両方を学ぶことができるステップバイステップのトレーニング戦略を取り入れた。
VARCO-VISIONは、その用途と潜在的な応用を拡大し、接地、参照、OCRを行うことができる。
論文 参考訳(メタデータ) (2024-11-28T12:38:42Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。