論文の概要: Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History
- arxiv url: http://arxiv.org/abs/2501.09154v1
- Date: Wed, 15 Jan 2025 21:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:46.628082
- Title: Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History
- Title(参考訳): バルト語と北欧語の多言語LLM評価に向けて : リトアニアの歴史研究
- Authors: Yevhen Kostiuk, Oxana Vitman, Łukasz Gagała, Artur Kiulian,
- Abstract要約: GPT-4oは言語グループ全体で他のモデルよりも一貫して優れていた。
QWEN2.5 72bのような大規模なオープンソースモデルはよく機能したが、バルト語との整合性は弱かった。
より小さなモデルは、北欧や他の言語でより優れた性能を保ちながら、バルト語とのLT関連アライメントとのギャップを示した。
- 参考スコア(独自算出の注目度): 2.06242362470764
- License:
- Abstract: In this work, we evaluated Lithuanian and general history knowledge of multilingual Large Language Models (LLMs) on a multiple-choice question-answering task. The models were tested on a dataset of Lithuanian national and general history questions translated into Baltic, Nordic, and other languages (English, Ukrainian, Arabic) to assess the knowledge sharing from culturally and historically connected groups. We evaluated GPT-4o, LLaMa3.1 8b and 70b, QWEN2.5 7b and 72b, Mistral Nemo 12b, LLaMa3 8b, Mistral 7b, LLaMa3.2 3b, and Nordic fine-tuned models (GPT-SW3 and LLaMa3 8b). Our results show that GPT-4o consistently outperformed all other models across language groups, with slightly better results for Baltic and Nordic languages. Larger open-source models like QWEN2.5 72b and LLaMa3.1 70b performed well but showed weaker alignment with Baltic languages. Smaller models (Mistral Nemo 12b, LLaMa3.2 3b, QWEN 7B, LLaMa3.1 8B, and LLaMa3 8b) demonstrated gaps with LT-related alignment with Baltic languages while performing better on Nordic and other languages. The Nordic fine-tuned models did not surpass multilingual models, indicating that shared cultural or historical context alone does not guarantee better performance.
- Abstract(参考訳): 本研究では,多言語大言語モデル(LLM)のリトアニア語と一般歴史の知識を複数選択質問応答タスクで評価した。
これらのモデルは、バルト語、北欧語、その他の言語(英語、ウクライナ語、アラビア語)に翻訳されたリトアニアの民族的および一般的な歴史に関する質問のデータセットでテストされ、文化的および歴史的に結びついたグループからの知識の共有を評価した。
GPT-4o, LLaMa3.1 8b, 70b, QWEN2.5 7b, 72b, Mistral Nemo 12b, LLaMa3 8b, Mistral 7b, LLaMa3.2 3b, Nordic fine-tuned model (GPT-SW3, LLaMa3 8b) について検討した。
以上の結果から,GPT-4oはバルト語および北欧語群において,他の言語群よりも若干優れていた。
QWEN2.5 72bやLLaMa3.1 70bのような大規模なオープンソースモデルはよく機能したが、バルト語との整合性は弱かった。
より小型のモデル(Mistral Nemo 12b、LLaMa3.2 3b、QWEN 7B、LLaMa3.1 8B、LLaMa3 8b)は、バルト語とLT関連のアライメントのギャップを実証し、北欧語や他の言語で改善した。
北欧の微調整モデルは多言語モデルを超えておらず、文化や歴史的文脈の共有だけではより良いパフォーマンスを保証していないことを示している。
関連論文リスト
- Goldfish: Monolingual Language Models for 350 Languages [23.365111479090626]
多くの低リソース言語において、利用可能な言語モデルは、多くの言語で同時に訓練された大きな多言語モデルのみである。
Goldfishはモノリンガルな自動回帰変換言語モデルで350言語に対して最大125Mのパラメータを出力する。
論文 参考訳(メタデータ) (2024-08-19T22:31:21Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - LLaMA: Open and Efficient Foundation Language Models [62.94749698865241]
LLaMAは、7Bから65Bのパラメータを含む基礎言語モデルの集合である。
私たちは、何十兆ものトークンでモデルをトレーニングし、公開データセットのみを使用して最先端モデルをトレーニングすることが可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-27T17:11:15Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - Training dataset and dictionary sizes matter in BERT models: the case of
Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。
提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2021-12-20T14:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。