Fugu-MT 論文翻訳(概要): LaVy: Vietnamese Multimodal Large Language Model

論文の概要: LaVy: Vietnamese Multimodal Large Language Model

arxiv url: http://arxiv.org/abs/2404.07922v1
Date: Thu, 11 Apr 2024 17:09:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 13:11:00.064412
Title: LaVy: Vietnamese Multimodal Large Language Model
Title（参考訳）: LaVy: ベトナムのマルチモーダル大言語モデル
Authors: Chi Tran, Huong Le Thanh,
Abstract要約: LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。本稿では,ベトナムの最先端MLLMであるLaVyを導入することで,この問題に対処する。また,ベトナムの視覚言語タスクに対するMLLMの理解を評価するためのLaVy-Benchベンチマークも導入した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) and Multimodal Large language models (MLLMs) have taken the world by storm with impressive abilities in complex reasoning and linguistic comprehension. Meanwhile there are plethora of works related to Vietnamese Large Language Models, the lack of high-quality resources in multimodality limits the progress of Vietnamese MLLMs. In this paper, we pioneer in address this by introducing LaVy, a state-of-the-art Vietnamese MLLM, and we also introduce LaVy-Bench benchmark designated for evaluating MLLMs's understanding on Vietnamese visual language tasks. All code and model weights are public at https://github.com/baochi0212/LaVy
Abstract（参考訳）: LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。一方、ベトナムの大規模言語モデルに関連する多くの作品があり、マルチモーダリティにおける高品質な資源の欠如はベトナムのMLLMの進歩を妨げている。本稿では,現在最先端のベトナム語MLLMであるLaVyを導入することでこの問題に対処し,また,MLLMのベトナム語視覚言語タスクに対する理解を評価するためのLaVy-Benchベンチマークも導入する。 all code and model weights is public at https://github.com/baochi0212/LaVy

関連論文リスト

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning [71.98260064022452]
LLaDA-Vは,視覚的インストラクションチューニングとマスク付き拡散モデルを統合した,純粋拡散に基づくマルチモーダル言語モデル(MLLM)である。代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vには、視覚的特徴を言語埋め込み空間に投影するビジョンエンコーダとコネクタが組み込まれている。
論文参考訳（メタデータ） (2025-05-22T17:23:26Z)
MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文参考訳（メタデータ） (2024-12-21T05:50:48Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。 SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文参考訳（メタデータ） (2024-07-29T03:26:22Z)
ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models [0.0]
ViLLM-Evalは、基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートである。 ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高の性能のモデルでさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2024-04-17T05:57:17Z)
Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文参考訳（メタデータ） (2024-03-20T10:14:13Z)
Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文参考訳（メタデータ） (2024-03-10T12:43:27Z)
VinaLLaMA: LLaMA-based Vietnamese Foundation Model [4.531874270358511]
VinaLLaMAはベトナム語のためのオープンウェイトで最先端のSOTA(Large Language Model)である。 100万の高品質な合成サンプルをトレーニングしたVinaLLaMA-7B-chatは、VLSP、VMLU、Vicuna Benchmark Vietnamを含む主要なベンチマークでSOTA結果を得る。
論文参考訳（メタデータ） (2023-12-18T08:27:33Z)
ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文参考訳（メタデータ） (2023-10-17T11:34:50Z)
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文参考訳（メタデータ） (2023-08-23T09:55:41Z)
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文参考訳（メタデータ） (2023-07-29T18:01:46Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。