論文の概要: Fine-tuning ChatGPT for Automatic Scoring of Written Scientific Explanations in Chinese
- arxiv url: http://arxiv.org/abs/2501.06704v1
- Date: Sun, 12 Jan 2025 04:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:00.945818
- Title: Fine-tuning ChatGPT for Automatic Scoring of Written Scientific Explanations in Chinese
- Title(参考訳): 中国語で書かれた科学的説明の自動スコーリングのための微調整ChatGPT
- Authors: Jie Yang, Ehsan Latif, Yuze He, Xiaoming Zhai,
- Abstract要約: 本研究は,中国語で書かれた科学的説明を自動的に収集する,先進的な大規模言語モデルChatGPTの可能性について検討する。
以上の結果から,ChatGPTによる中国の科学的説明の精度向上が期待できることがわかった。
このモデルは、複雑な文構造を持つ低レベルの応答において複雑な推論をオーバーレイし、簡潔な因果推論を用いて高レベルの応答をアンダーレイトする。
- 参考スコア(独自算出の注目度): 5.388015994761978
- License:
- Abstract: The development of explanations for scientific phenomena is essential in science assessment, but scoring student-written explanations remains challenging and resource-intensive. Large language models (LLMs) have shown promise in addressing this issue, particularly in alphabetic languages like English. However, their applicability to logographic languages is less explored. This study investigates the potential of fine-tuning ChatGPT, a leading LLM, to automatically score scientific explanations written in Chinese. Student responses to seven scientific explanation tasks were collected and automatically scored, with scoring accuracy examined in relation to reasoning complexity using the Kendall correlation. A qualitative analysis explored how linguistic features influenced scoring accuracy. The results show that domain-specific adaptation enables ChatGPT to score Chinese scientific explanations with accuracy. However, scoring accuracy correlates with reasoning complexity: a negative correlation for lower-level responses and a positive one for higher-level responses. The model overrates complex reasoning in low-level responses with intricate sentence structures and underrates high-level responses using concise causal reasoning. These correlations stem from linguistic features--simplicity and clarity enhance accuracy for lower-level responses, while comprehensiveness improves accuracy for higher-level ones. Simpler, shorter responses tend to score more accurately at lower levels, whereas longer, information-rich responses yield better accuracy at higher levels. These findings demonstrate the effectiveness of LLMs in automatic scoring within a Chinese context and emphasize the importance of linguistic features and reasoning complexity in fine-tuning scoring models for educational assessments.
- Abstract(参考訳): 科学的現象の説明の発達は科学評価に不可欠であるが、学生による説明の収集は依然として困難で資源集約的である。
大きな言語モデル(LLM)は、特に英語のようなアルファベットの言語でこの問題に対処することを約束している。
しかし、ログラフ言語への適用性は低い。
本研究は、中国語で書かれた科学的な説明を自動収集するLLMである微調整ChatGPTの可能性について検討する。
7つの科学的説明課題に対する学生の回答を収集,自動採点し,Kendall相関を用いた推論複雑性に関する評価精度を検証した。
質的な分析により、言語的特徴がスコアリング精度にどのように影響するかを調べた。
以上の結果から,ChatGPTによる中国の科学的説明の精度向上が期待できることがわかった。
しかし、スコアリング精度は、低レベル応答に対する負の相関と高レベル応答に対する正の相関という、推論の複雑さと相関する。
このモデルは、複雑な文構造を持つ低レベルの応答において複雑な推論をオーバーレイし、簡潔な因果推論を用いて高レベルの応答をアンダーレイトする。
これらの相関は、単純さと明瞭さによって低レベル応答の精度が向上し、包括性が高レベル応答の精度を向上させるという言語的特徴に由来する。
より単純で短い応答はより低いレベルでより正確に得点する傾向にあり、一方、より長い情報に富んだ応答はより高いレベルでより正確になる。
これらの結果は,中国語文脈における自動スコアリングにおけるLLMの有効性を示し,教育評価のための微調整スコアリングモデルにおける言語的特徴の重要性と推論の複雑さを強調した。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't [9.944647907864256]
本稿では,言語的要因が自動音声認識(ASR)モデルの性能に与える影響について検討する。
15の書き起こしシステムを持つ25言語で、多言語で教師付き事前訓練されたWav2Vec2-XLSR-53を微調整する。
論文 参考訳(メタデータ) (2024-06-13T14:59:45Z) - Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs) [0.35069196259739965]
言語的曖昧さは、自然言語処理(NLP)システムにとって重要な課題である。
近年のChatGPTやGeminiのような教育モデルの成功に触発されて,これらのモデルにおける言語的あいまいさを分析し,議論することを目的とした。
論文 参考訳(メタデータ) (2024-04-25T14:45:07Z) - Context Matters: Data-Efficient Augmentation of Large Language Models
for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。
一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。
本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文 参考訳(メタデータ) (2023-12-12T08:43:20Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。
ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-05-12T10:07:12Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。