論文の概要: Measuring Moral LLM Responses in Multilingual Capacities
- arxiv url: http://arxiv.org/abs/2510.08776v1
- Date: Thu, 09 Oct 2025 19:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.691149
- Title: Measuring Moral LLM Responses in Multilingual Capacities
- Title(参考訳): 多言語能力におけるモル型LDM応答の測定
- Authors: Kimaya Basu, Savi Kolari, Allison Yu,
- Abstract要約: 我々は、フロンティアと主要なオープンソースモデルの応答を、低級および高級の言語で5次元で評価する。
本研究は, GPT-5が各カテゴリーで平均で最高の成績を示したのに対し, 他のモデルでは言語, カテゴリー間で矛盾性を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.
- Abstract(参考訳): LLMの使用が国、言語、人類に広まるにつれ、多言語対応の理解と保護の必要性が高まっている。
複数の次元にわたるLSM応答を評価し、促進するために、テストとベンチマークのための大規模なデータセットが作成されている。
本研究では,LLMの精度と多言語文脈における整合性を評価するために,フロンティアモデルと先進オープンソースモデルの5次元での応答を評価した。
5点グレーディングルーブリックと判定用LLMを用いて応答を評価した。
本研究は, GPT-5が各カテゴリーで平均で最高の成績を示したのに対し, 他のモデルでは言語, カテゴリー間で矛盾性を示した。
特に、Consent & AutonomyとHarm Prevention & Safetyのカテゴリーでは、GPTが平均3.56と4.73で、Gemini 2.5 Proが平均1.39と1.98で最高となった。
これらの知見は,言語的変化がLLMの反応に様々なカテゴリーでどのように影響するかのさらなる検査の必要性を強調した。
関連論文リスト
- PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - Exploring the Multilingual NLG Evaluation Abilities of LLM-Based Evaluators [38.681443695708786]
本研究は,近年の10個のLLMの多言語評価性能を包括的に分析する。
参照応答をプロンプトから除外すると、様々な言語のパフォーマンスが向上することがわかった。
LLMに基づく評価器の多くは、低リソース言語よりも、高リソース言語における人間の判断と高い相関関係を示す。
論文 参考訳(メタデータ) (2025-03-06T12:04:29Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。
私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。
また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。