論文の概要: Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
- arxiv url: http://arxiv.org/abs/2408.12480v1
- Date: Thu, 22 Aug 2024 15:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:22:23.151624
- Title: Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese
- Title(参考訳): Vintern-1B:ベトナム語のための効率的なマルチモーダル大言語モデル
- Authors: Khang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang,
- Abstract要約: Vintern-1Bはベトナム語タスクのための信頼性の高いマルチモーダル大言語モデル(MLLM)である。
このモデルは、300万以上の画像検索と回答のペアからなる広範囲なデータセットに基づいて微調整されている。
Vintern-1Bは、様々なデバイス上のアプリケーションに簡単に適合できるほど小さい。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.
- Abstract(参考訳): 本稿ではベトナム語タスクのための信頼性の高い1ビリオンパラメトリック・マルチモーダル言語モデル(MLLM)であるVintern-1Bを紹介する。
Qwen2-0.5B-Instruct言語モデルとInternViT-300M-448pxビジュアルモデルを統合することで、Vintern-1Bは、光学文字認識(OCR)、文書抽出、ベトナムの文脈における一般的な質問応答など、幅広い用途に最適化されている。
このモデルは300万以上の画像検索と回答のペアからなる広範なデータセットに基づいて微調整され、OpenViVQAやViTextVQAといったベトナムの複数の言語ベンチマークで堅牢なパフォーマンスと信頼性を実現している。
Vintern-1Bは、様々なデバイス上のアプリケーションに簡単に適合できるほど小さい。
さらに、Gemini 1.5 Flashで作成されたテキストとダイアグラムのためのベトナムの視覚質問応答(VQA)データセットをオープンソース化しました。
私たちのモデルは、https://huggingface.co/5CD-AI/Vintern-1B-v2で利用可能です。
関連論文リスト
- OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images [1.2529442734851663]
28,000以上の画像と12000以上の質問応答対からなる新しいデータセットViOCRVQA(Vietnamese Optical Character Recognition - Visual Question Answering dataset)を導入する。
このデータセットでは、すべての画像は、画像内のテキストに関連する情報に関するテキストと質問を含む。
ベトナムのデータセットに固有の課題と難しさを明らかにするため、我々のデータセットで実験を行うために英語が提案した最先端の手法のアイデアをデプロイする。
論文 参考訳(メタデータ) (2024-04-29T03:17:47Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers
Models for Vietnamese Visual Question Answering [3.0938904602244355]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)を統合した複雑で要求の多いタスクである。
本稿では,BARTPhoBEiTというトランスフォーマーベースのベトナム語モデルを紹介する。
このモデルは、ベトナムのイメージトランスフォーマーから事前訓練されたシーケンス・ツー・シーケンスと双方向エンコーダ表現を含み、ベトナムのVQAデータセットを評価する。
論文 参考訳(メタデータ) (2023-07-28T06:23:32Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - ViDeBERTa: A powerful pre-trained language model for Vietnamese [10.000783498978604]
本稿ではベトナム語のための単言語モデルViDeBERTaについて述べる。
ViDeBERTa_xsmall、ViDeBERTa_base、ViDeBERTa_largeの3つのバージョンは、高品質で多様なベトナム語テキストの大規模コーパスで事前訓練されている。
我々は,3つの重要な自然言語下流タスク,パート・オブ・音声タギング,名前付き親和性認識,質問応答を微調整し,評価する。
論文 参考訳(メタデータ) (2023-01-25T07:26:54Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。