論文の概要: Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque
- arxiv url: http://arxiv.org/abs/2511.09396v1
- Date: Thu, 13 Nov 2025 01:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.551061
- Title: Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque
- Title(参考訳): 低リソース言語のためのマルチモーダル大言語モデル:バスクのケーススタディ
- Authors: Lukas Arana, Julen Etxaniz, Ander Salaberria, Gorka Azkune,
- Abstract要約: バスク語のための独自のトレーニングと画像テキストデータセットの評価を行う。
バスクのマルチモーダルデータの低比は、バスクのベンチマークでしっかりとした結果を得るのに十分であることを示す。
我々の成果は、リソースをオープンにリリースすることで、他の低リソース言語向けのMLLMを開発するための道を開いた。
- 参考スコア(独自算出の注目度): 9.472204782610122
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Current Multimodal Large Language Models exhibit very strong performance for several demanding tasks. While commercial MLLMs deliver acceptable performance in low-resource languages, comparable results remain unattained within the open science community. In this paper, we aim to develop a strong MLLM for a low-resource language, namely Basque. For that purpose, we develop our own training and evaluation image-text datasets. Using two different Large Language Models as backbones, the Llama-3.1-Instruct model and a Basque-adapted variant called Latxa, we explore several data mixtures for training. We show that: i) low ratios of Basque multimodal data (around 20%) are already enough to obtain solid results on Basque benchmarks, and ii) contrary to expected, a Basque instructed backbone LLM is not required to obtain a strong MLLM in Basque. Our results pave the way to develop MLLMs for other low-resource languages by openly releasing our resources.
- Abstract(参考訳): 現在のMultimodal Large Language Modelsは、いくつかの要求のあるタスクに対して非常に強力なパフォーマンスを示している。
商用MLLMは低リソース言語で許容できるパフォーマンスを提供するが、同等の結果はオープンサイエンスコミュニティでは達成されていない。
本稿では,低リソース言語,すなわちバスク語のための強力なMLLMを開発することを目的とする。
その目的のために、私たちは独自のトレーニングと画像テキストデータセットの評価を開発します。
Llama-3.1-InstructモデルとLatxaと呼ばれるバスク適応型モデルという2つの異なるLarge Language Modelをバックボーンとして使用し、トレーニング用のデータミックスを探索する。
以下に示す。
i) バスクのマルチモーダルデータの低比(約20%)は、バスクのベンチマークでしっかりとした結果を得るのに十分であり、
二 バスクにおいて、強いMLLMを得るために、バスクに指示されたバックボーンLSMを必要としない。
我々の成果は、リソースをオープンにリリースすることで、他の低リソース言語向けのMLLMを開発するための道を開いた。
関連論文リスト
- Instructing Large Language Models for Low-Resource Languages: A Systematic Study for Basque [28.653468015270732]
ユーザ意図で言語モデルを教えるには、限られた言語セットでしか利用できない大規模な命令データセットが必要である。
対象言語におけるコーパス、既存のオープンウェイトな多言語ベースと指示されたバックボーンLLM、および指示されたバックボーンから合成された命令のみを利用できる低リソース言語に対する現実的なシナリオを仮定する。
論文 参考訳(メタデータ) (2025-06-09T09:54:47Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Introducing Bode: A Fine-Tuned Large Language Model for Portuguese
Prompt-Based Task [1.158680734110387]
この研究は、ポルトガルのプロンプト「ボーデ」のための微調整されたLLaMA 2ベースのモデルを提案する。
In-context Learningを用いたゼロショット手法を用いて分類タスクにおけるこのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-01-05T17:15:01Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。