論文の概要: Do LLMs exhibit the same commonsense capabilities across languages?
- arxiv url: http://arxiv.org/abs/2509.06401v1
- Date: Mon, 08 Sep 2025 07:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.005159
- Title: Do LLMs exhibit the same commonsense capabilities across languages?
- Title(参考訳): LLMは言語間で同じ常識能力を示すか?
- Authors: Ivan Martínez-Murillo, Elena Lloret, Paloma Moreda, Albert Gatt,
- Abstract要約: 我々はCOCOTEROSデータセットを4つの言語(英語、スペイン語、オランダ語、バレンシア語)に拡張する新しいベンチマークであるMultiCOMを紹介した。
このタスクは、与えられた3つの単語を含む常識的な文を生成することを含む。
その結果、英語では優れた性能を示し、低リソース言語では大幅に性能が低下した。
- 参考スコア(独自算出の注目度): 4.177608674029413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the multilingual commonsense generation abilities of Large Language Models (LLMs). To facilitate this investigation, we introduce MULTICOM, a novel benchmark that extends the COCOTEROS dataset to four languages: English, Spanish, Dutch, and Valencian. The task involves generating a commonsensical sentence that includes a given triplet of words. We evaluate a range of open-source LLMs, including LLaMA, Qwen, Gemma, EuroLLM, and Salamandra, on this benchmark. Our evaluation combines automatic metrics, LLM-as-a-judge approaches (using Prometheus and JudgeLM), and human annotations. Results consistently show superior performance in English, with significantly lower performance in less-resourced languages. While contextual support yields mixed results, it tends to benefit underrepresented languages. These findings underscore the current limitations of LLMs in multilingual commonsense generation. The dataset is publicly available at https://huggingface.co/datasets/gplsi/MULTICOM.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) の多言語共通センス生成能力について検討する。
この調査を容易にするために、COCOTEROSデータセットを4つの言語(英語、スペイン語、オランダ語、バレンシア語)に拡張した新しいベンチマークであるMultiCOMを紹介した。
このタスクは、与えられた3つの単語を含む常識的な文を生成することを含む。
LLaMA, Qwen, Gemma, EuroLLM, Salamandra などのオープンソース LLM をこのベンチマークで評価した。
評価には,自動メトリクス,LPM-as-a-judgeアプローチ(Prometheus と judgeLM を用いた)と人間のアノテーションを組み合わせる。
その結果、英語では優れた性能を示し、低リソース言語では大幅に性能が低下した。
コンテキストサポートは複雑な結果をもたらすが、表現不足の言語に利益をもたらす傾向がある。
これらの知見は多言語コモンセンス生成におけるLLMの現在の限界を浮き彫りにした。
データセットはhttps://huggingface.co/datasets/gplsi/MULTICOMで公開されている。
関連論文リスト
- Mind the Gap... or Not? How Translation Errors and Evaluation Details Skew Multilingual Results [16.391752298134474]
言語間で異なる大規模言語モデル(LLM)の性能について検討する。
言語間でのモデルの性能には、非無視的で一貫したギャップがあることが分かりました。
本稿では,第1の課題を大規模に解決するための自動品質保証手法を提案し,第2の課題に対処するためのレコメンデーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T11:30:10Z) - Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate [36.641755706551336]
大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。
しかし、彼らは他の言語で同じクエリに対応することに本当に一貫性がありますか?
本稿では,LLMの言語間整合性を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T06:00:21Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。