論文の概要: VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.19103v1
- Date: Thu, 28 Nov 2024 12:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:25.576193
- Title: VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
- Title(参考訳): VARCO-VISION:韓国のビジョンランゲージモデルにおけるフロンティアの拡大
- Authors: Jeongho Ju, Daeyoung Kim, SunYoung Park, Youngjune Kim,
- Abstract要約: 本稿では,VLM(VARCO-VISION)をオープンソースとして導入する。
我々は、モデルが言語情報と視覚情報の両方を学ぶことができるステップバイステップのトレーニング戦略を取り入れた。
VARCO-VISIONは、その用途と潜在的な応用を拡大し、接地、参照、OCRを行うことができる。
- 参考スコア(独自算出の注目度): 7.343894708908458
- License:
- Abstract: In this paper, we introduce an open-source Korean-English vision-language model (VLM), VARCO-VISION. We incorporate a step-by-step training strategy that allows a model learn both linguistic and visual information while preserving the backbone model's knowledge. Our model demonstrates outstanding performance in diverse settings requiring bilingual image-text understanding and generation abilities compared to models of similar size. VARCO-VISION is also capable of grounding, referring, and OCR, expanding its usage and potential applications for real-world scenarios. In addition to the model, we release five Korean evaluation datasets, including four closed-set and one openset benchmarks. We anticipate that our milestone will broaden the opportunities for AI researchers aiming to train VLMs. VARCO-VISION is available at https://huggingface.co/NCSOFT/VARCO-VISION-14B.
- Abstract(参考訳): 本稿では,VLM(VARCO-VISION)をオープンソースとして導入する。
バックボーンモデルの知識を保ちながら、言語情報と視覚情報の両方を学ぶことができるステップバイステップのトレーニング戦略を取り入れた。
両言語による画像テキスト理解と生成能力を必要とする多様な設定において,同規模のモデルと比較して優れた性能を示す。
VARCO-VISIONはまた、現実世界のシナリオに対する利用と潜在的な応用を拡大し、接地、参照、OCRも可能である。
このモデルに加えて、4つのクローズドセットと1つのオープンセットベンチマークを含む5つの韓国評価データセットをリリースする。
私たちのマイルストーンは、VLMのトレーニングを目指すAI研究者の機会を広げることを期待しています。
VARCO-VISIONはhttps://huggingface.co/NCSOFT/VARCO-VISION-14Bで利用可能である。
関連論文リスト
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Fine-tuning multilingual language models in Twitter/X sentiment analysis: a study on Eastern-European V4 languages [0.0]
未表現言語におけるTwitter/Xデータに基づくABSAサブタスクに着目した。
我々はロシアとウクライナに対する感情の分類のためにいくつかのLSMを微調整した。
いくつかのモデルは、Twitterのマルチ言語タスクにおいて、他のモデルよりもはるかにきめ細やかに調整可能であることを示す興味深い現象をいくつか報告している。
論文 参考訳(メタデータ) (2024-08-04T14:35:30Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese [1.2182821723492487]
視覚言語モデル(VLM)の日本語能力を評価するための新しいベンチマークを導入する。
日本語のヘロン・ベンチは、日本語の文脈に合わせて様々な画像検索応答ペアで構成されている。
本稿では,日本語の視覚指導調律データセットを用いて学習した日本語VLMについて述べる。
論文 参考訳(メタデータ) (2024-04-11T15:09:22Z) - DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - cViL: Cross-Lingual Training of Vision-Language Models using Knowledge
Distillation [6.381149074212897]
本稿では、英語のみの視覚言語モデルを用いて、対象言語に対する単言語モデルを訓練するパイプラインを提案する。
日本語とヒンディー語で大規模な視覚的質問応答データセットをリリースする。
我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-06-07T14:46:30Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。