Fugu-MT 論文翻訳(概要): Multilingual Large Language Models do not comprehend all natural languages to equal degrees

論文の概要: Multilingual Large Language Models do not comprehend all natural languages to equal degrees

arxiv url: http://arxiv.org/abs/2602.20065v1
Date: Mon, 23 Feb 2026 17:22:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.924375
Title: Multilingual Large Language Models do not comprehend all natural languages to equal degrees
Title（参考訳）: 多言語大言語モデルは全ての自然言語を等等級に理解しない
Authors: Natalia Moskvina, Raquel Montero, Masaya Yoshida, Ferdy Hubers, Paolo Morosi, Walid Irhaymi, Jin Yan, Tamara Serrano, Elena Pagliarini, Fritz Günther, Evelina Leivada,
Abstract要約: 大規模言語モデル(LLM)は、人間が情報にアクセスする方法において重要な役割を果たす。ほとんどのベンチマークでは、西洋語、教育語、工業化語、リッチ語、民主語(WEIRD)の言語でLLMを評価する。言語理解タスクにおいて,12言語にまたがる3つの人気モデルを提案する。以上の結果から,類型的に多様な言語にまたがって,言語学的精度が著しく向上していることが示唆された。
参考スコア（独自算出の注目度）: 3.1312895682585595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) play a critical role in how humans access information. While their core use relies on comprehending written requests, our understanding of this ability is currently limited, because most benchmarks evaluate LLMs in high-resource languages predominantly spoken by Western, Educated, Industrialised, Rich, and Democratic (WEIRD) communities. The default assumption is that English is the best-performing language for LLMs, while smaller, low-resource languages are linked to less reliable outputs, even in multilingual, state-of-the-art models. To track variation in the comprehension abilities of LLMs, we prompt 3 popular models on a language comprehension task across 12 languages, representing the Indo-European, Afro-Asiatic, Turkic, Sino-Tibetan, and Japonic language families. Our results suggest that the models exhibit remarkable linguistic accuracy across typologically diverse languages, yet they fall behind human baselines in all of them, albeit to different degrees. Contrary to what was expected, English is not the best-performing language, as it was systematically outperformed by several Romance languages, even lower-resource ones. We frame the results by discussing the role of several factors that drive LLM performance, such as tokenization, language distance from Spanish and English, size of training data, and data origin in high- vs. low-resource languages and WEIRD vs. non-WEIRD communities.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間が情報にアクセスする方法において重要な役割を果たす。なぜなら、ほとんどのベンチマークでは、主に西欧、教育、工業化、リッチ、民主(WEIRD)コミュニティによって話される高リソース言語におけるLSMを評価しているからです。デフォルトの前提は、LLMにとって英語が最高のパフォーマンスを持つ言語であるのに対して、小規模で低リソースの言語は、マルチリンガルで最先端のモデルであっても、信頼性の低い出力にリンクされているということである。 LLMの理解能力の変化を追跡するため、インド・ヨーロッパ語、アフロ・アジア語、テュルク語、シナ・チベット語、ジャポニック語族を表す12言語にわたる言語理解タスクの3つの一般的なモデルを提案する。以上の結果から,類型的に多種多様な言語にまたがる言語的正確性は顕著であるが,それらすべてにおいて人間の基準に遅れていることが示唆された。予想に反して、英語は最も優れた言語ではない。我々は、トークン化、スペイン語と英語からの言語距離、トレーニングデータのサイズ、低リソース言語とWEIRDと非WEIRDのコミュニティにおけるデータ起源など、LCMのパフォーマンスを駆動するいくつかの要因の役割を論じて、その結果について論じる。

関連論文リスト

FormosanBench: Benchmarking Low-Resource Austronesian Languages in the Era of Large Language Models [1.2403152094314245]
我々は,低リソースオーストロネシア言語上での大規模言語モデル(LLM)を評価するための最初のベンチマークであるFORMOSANBENCHを紹介する。 FORMOSANBENCHを用いて,ゼロショット,10ショット,微調整設定におけるモデル性能を評価する。この結果から,高リソース言語とFormosan言語の間には,大幅な性能差が認められた。
論文参考訳（メタデータ） (2025-06-12T07:02:28Z)
Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文参考訳（メタデータ） (2025-05-23T02:46:18Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文参考訳（メタデータ） (2024-11-02T05:10:50Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。 Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [20.79017989484242]
大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
論文参考訳（メタデータ） (2024-09-22T14:14:05Z)
Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。 Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文参考訳（メタデータ） (2024-05-09T13:54:22Z)
Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。我々の研究は、Llama2の翻訳能力について論じている。実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文参考訳（メタデータ） (2024-02-21T16:32:38Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Multilingual Language Model Adaptive Fine-Tuning: A Study on African Languages [19.067718464786463]
我々は、アフリカ大陸で広く話されている17の最もリソースの多いアフリカ言語と他の3つの高リソース言語に対して、多言語適応微調整(MAFT)を行う。多言語 PLM をさらに専門化するため,MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去した。当社のアプローチでは,LAFTを個々の言語に適用する上で,ディスクスペースを大幅に削減する。
論文参考訳（メタデータ） (2022-04-13T16:13:49Z)
Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文参考訳（メタデータ） (2021-10-26T14:59:16Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。