論文の概要: Examining the Behavior of LLM Architectures Within the Framework of Standardized National Exams in Brazil
- arxiv url: http://arxiv.org/abs/2408.05035v1
- Date: Fri, 9 Aug 2024 12:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:47:15.146738
- Title: Examining the Behavior of LLM Architectures Within the Framework of Standardized National Exams in Brazil
- Title(参考訳): ブラジルにおける標準化国家試験の枠組みにおけるLLMアーキテクチャの挙動の検討
- Authors: Marcelo Sartori Locatelli, Matheus Prado Miranda, Igor Joaquim da Silva Costa, Matheus Torres Prates, Victor Thomé, Mateus Zaparoli Monteiro, Tomas Lacerda, Adriana Pagano, Eduardo Rios Neto, Wagner Meira Jr., Virgilio Almeida,
- Abstract要約: Exame Nacional do Ensino M'edio (ENEM)はブラジルの学生にとって重要な試験であり、ブラジルの多くの大学に入学するために必要である。
ブラジル政府の透明性政策により、学生の回答と社会経済的地位に関するアンケートは毎年公にされている(匿名化されている)。
人間の異なるグループとAIを比較し、人間と機械の回答の分布にアクセスできるようにします。
- 参考スコア(独自算出の注目度): 0.40260939837426674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Exame Nacional do Ensino M\'edio (ENEM) is a pivotal test for Brazilian students, required for admission to a significant number of universities in Brazil. The test consists of four objective high-school level tests on Math, Humanities, Natural Sciences and Languages, and one writing essay. Students' answers to the test and to the accompanying socioeconomic status questionnaire are made public every year (albeit anonymized) due to transparency policies from the Brazilian Government. In the context of large language models (LLMs), these data lend themselves nicely to comparing different groups of humans with AI, as we can have access to human and machine answer distributions. We leverage these characteristics of the ENEM dataset and compare GPT-3.5 and 4, and MariTalk, a model trained using Portuguese data, to humans, aiming to ascertain how their answers relate to real societal groups and what that may reveal about the model biases. We divide the human groups by using socioeconomic status (SES), and compare their answer distribution with LLMs for each question and for the essay. We find no significant biases when comparing LLM performance to humans on the multiple-choice Brazilian Portuguese tests, as the distance between model and human answers is mostly determined by the human accuracy. A similar conclusion is found by looking at the generated text as, when analyzing the essays, we observe that human and LLM essays differ in a few key factors, one being the choice of words where model essays were easily separable from human ones. The texts also differ syntactically, with LLM generated essays exhibiting, on average, smaller sentences and less thought units, among other differences. These results suggest that, for Brazilian Portuguese in the ENEM context, LLM outputs represent no group of humans, being significantly different from the answers from Brazilian students across all tests.
- Abstract(参考訳): Exame Nacional do Ensino M\'edio (ENEM)はブラジルの学生にとって重要な試験であり、ブラジルのかなりの数の大学に入学するために必要である。
このテストは、数学、人文科学、自然科学、言語に関する4つの客観的な高校レベルのテストと、1つのエッセイからなる。
ブラジル政府の透明性政策により、学生の回答と社会経済的地位に関するアンケートは毎年公にされている(匿名化されている)。
大規模言語モデル(LLM)の文脈では、これらのデータは人間の異なるグループとAIを比較して、人間と機械の回答の分布にアクセスすることができる。
我々は、ENEMデータセットの特徴を活用し、GPT-3.5と4を比較し、ポルトガルのデータを用いて訓練されたモデルであるMariTalkを人間と比較し、その回答が実際の社会的グループとどのように関連し、モデルバイアスにどのような影響を及ぼすかを確認することを目的とした。
我々は,社会経済状態(SES)を用いて人間集団を分割し,その回答分布を各質問やエッセイのLLMと比較する。
ブラジルの多点検定において, LLM のパフォーマンスを人間と比較する際の有意なバイアスは見つからない。
同様の結論は、生成されたエッセイを分析する際に、人間のエッセイとLLMエッセイは、人間のエッセイと容易に分離できる単語の選択である、いくつかの重要な要因で異なることが観察される。
テキストは構文的にも異なっており、LLMは、平均的により少ない文と少ない思考単位を示すエッセイを作成した。
これらの結果は, ブラジルポルトガル語のENEM文脈では, LLM出力は人間の集団を表すものではなく, 全試験におけるブラジル学生の回答とは大きく異なることを示唆している。
関連論文リスト
- Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Are Large Language Models Good Essay Graders? [4.134395287621344]
我々は,エッセイの質を評価する上で,Large Language Models (LLMs) を評価する。
我々は,LLMが提供した数値を,ASAPデータセットを用いた人間レーダ提供スコアと比較した。
チャットGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。
論文 参考訳(メタデータ) (2024-09-19T23:20:49Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Contrasting Linguistic Patterns in Human and LLM-Generated News Text [20.127243508644984]
人書き英語のニューステキストに比較して,LLM(Large Language Model)の出力を定量的に分析する。
結果は、人間とAIが生成したテキストの様々な測定可能な相違を明らかにした。
人間の文章は、より散在した文の長さの分布、より多様な語彙、依存と構成型の明確な利用を示す。
LLM出力は人文よりも数字、記号、補助語が多用され、代名詞も多用される。
論文 参考訳(メタデータ) (2023-08-17T15:54:38Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Essay-BR: a Brazilian Corpus of Essays [0.0]
ブラジルの高校生がオンラインプラットフォーム上で書いたエッセイで大きなコーパスを作ります。
すべてのエッセイは議論的であり、専門家によって5つの能力で評価された。
論文 参考訳(メタデータ) (2021-05-19T11:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。