Fugu-MT 論文翻訳(概要): Do LLMs exhibit the same commonsense capabilities across languages?

論文の概要: Do LLMs exhibit the same commonsense capabilities across languages?

arxiv url: http://arxiv.org/abs/2509.06401v1
Date: Mon, 08 Sep 2025 07:47:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-09 14:07:04.005159
Title: Do LLMs exhibit the same commonsense capabilities across languages?
Title（参考訳）: LLMは言語間で同じ常識能力を示すか?
Authors: Ivan Martínez-Murillo, Elena Lloret, Paloma Moreda, Albert Gatt,
Abstract要約: 我々はCOCOTEROSデータセットを4つの言語(英語、スペイン語、オランダ語、バレンシア語)に拡張する新しいベンチマークであるMultiCOMを紹介した。このタスクは、与えられた3つの単語を含む常識的な文を生成することを含む。その結果、英語では優れた性能を示し、低リソース言語では大幅に性能が低下した。
参考スコア（独自算出の注目度）: 4.177608674029413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores the multilingual commonsense generation abilities of Large Language Models (LLMs). To facilitate this investigation, we introduce MULTICOM, a novel benchmark that extends the COCOTEROS dataset to four languages: English, Spanish, Dutch, and Valencian. The task involves generating a commonsensical sentence that includes a given triplet of words. We evaluate a range of open-source LLMs, including LLaMA, Qwen, Gemma, EuroLLM, and Salamandra, on this benchmark. Our evaluation combines automatic metrics, LLM-as-a-judge approaches (using Prometheus and JudgeLM), and human annotations. Results consistently show superior performance in English, with significantly lower performance in less-resourced languages. While contextual support yields mixed results, it tends to benefit underrepresented languages. These findings underscore the current limitations of LLMs in multilingual commonsense generation. The dataset is publicly available at https://huggingface.co/datasets/gplsi/MULTICOM.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) の多言語共通センス生成能力について検討する。この調査を容易にするために、COCOTEROSデータセットを4つの言語(英語、スペイン語、オランダ語、バレンシア語)に拡張した新しいベンチマークであるMultiCOMを紹介した。このタスクは、与えられた3つの単語を含む常識的な文を生成することを含む。 LLaMA, Qwen, Gemma, EuroLLM, Salamandra などのオープンソース LLM をこのベンチマークで評価した。評価には,自動メトリクス,LPM-as-a-judgeアプローチ(Prometheus と judgeLM を用いた)と人間のアノテーションを組み合わせる。その結果、英語では優れた性能を示し、低リソース言語では大幅に性能が低下した。コンテキストサポートは複雑な結果をもたらすが、表現不足の言語に利益をもたらす傾向がある。これらの知見は多言語コモンセンス生成におけるLLMの現在の限界を浮き彫りにした。データセットはhttps://huggingface.co/datasets/gplsi/MULTICOMで公開されている。

関連論文リスト

Found in Translation: Measuring Multilingual LLM Consistency as Simple as Translate then Evaluate [36.641755706551336]
大規模言語モデル(LLM)は、英語のクエリに対して詳細で印象的な応答を提供する。しかし、彼らは他の言語で同じクエリに対応することに本当に一貫性がありますか? 本稿では,LLMの言語間整合性を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-28T06:00:21Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文参考訳（メタデータ） (2023-04-10T15:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。