論文の概要: Fine-tuning ChatGPT for Automatic Scoring of Written Scientific Explanations in Chinese
- arxiv url: http://arxiv.org/abs/2501.06704v1
- Date: Sun, 12 Jan 2025 04:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 19:20:12.954716
- Title: Fine-tuning ChatGPT for Automatic Scoring of Written Scientific Explanations in Chinese
- Title(参考訳): 中国語で書かれた科学的説明の自動スコーリングのための微調整ChatGPT
- Authors: Jie Yang, Ehsan Latif, Yuze He, Xiaoming Zhai,
- Abstract要約: 本研究は,中国語で書かれた科学的説明を自動的に収集する,先進的な大規模言語モデルChatGPTの可能性について検討する。
以上の結果から,ChatGPTによる中国の科学的説明の精度向上が期待できることがわかった。
このモデルは、複雑な文構造を持つ低レベルの応答において複雑な推論をオーバーレイし、簡潔な因果推論を用いて高レベルの応答をアンダーレイトする。
- 参考スコア(独自算出の注目度): 5.388015994761978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of explanations for scientific phenomena is essential in science assessment, but scoring student-written explanations remains challenging and resource-intensive. Large language models (LLMs) have shown promise in addressing this issue, particularly in alphabetic languages like English. However, their applicability to logographic languages is less explored. This study investigates the potential of fine-tuning ChatGPT, a leading LLM, to automatically score scientific explanations written in Chinese. Student responses to seven scientific explanation tasks were collected and automatically scored, with scoring accuracy examined in relation to reasoning complexity using the Kendall correlation. A qualitative analysis explored how linguistic features influenced scoring accuracy. The results show that domain-specific adaptation enables ChatGPT to score Chinese scientific explanations with accuracy. However, scoring accuracy correlates with reasoning complexity: a negative correlation for lower-level responses and a positive one for higher-level responses. The model overrates complex reasoning in low-level responses with intricate sentence structures and underrates high-level responses using concise causal reasoning. These correlations stem from linguistic features--simplicity and clarity enhance accuracy for lower-level responses, while comprehensiveness improves accuracy for higher-level ones. Simpler, shorter responses tend to score more accurately at lower levels, whereas longer, information-rich responses yield better accuracy at higher levels. These findings demonstrate the effectiveness of LLMs in automatic scoring within a Chinese context and emphasize the importance of linguistic features and reasoning complexity in fine-tuning scoring models for educational assessments.
- Abstract(参考訳): 科学的現象の説明の発達は科学評価に不可欠であるが、学生による説明の収集は依然として困難で資源集約的である。
大きな言語モデル(LLM)は、特に英語のようなアルファベットの言語でこの問題に対処することを約束している。
しかし、ログラフ言語への適用性は低い。
本研究は、中国語で書かれた科学的な説明を自動収集するLLMである微調整ChatGPTの可能性について検討する。
7つの科学的説明課題に対する学生の回答を収集,自動採点し,Kendall相関を用いた推論複雑性に関する評価精度を検証した。
質的な分析により、言語的特徴がスコアリング精度にどのように影響するかを調べた。
以上の結果から,ChatGPTによる中国の科学的説明の精度向上が期待できることがわかった。
しかし、スコアリング精度は、低レベル応答に対する負の相関と高レベル応答に対する正の相関という、推論の複雑さと相関する。
このモデルは、複雑な文構造を持つ低レベルの応答において複雑な推論をオーバーレイし、簡潔な因果推論を用いて高レベルの応答をアンダーレイトする。
これらの相関は、単純さと明瞭さによって低レベル応答の精度が向上し、包括性が高レベル応答の精度を向上させるという言語的特徴に由来する。
より単純で短い応答はより低いレベルでより正確に得点する傾向にあり、一方、より長い情報に富んだ応答はより高いレベルでより正確になる。
これらの結果は,中国語文脈における自動スコアリングにおけるLLMの有効性を示し,教育評価のための微調整スコアリングモデルにおける言語的特徴の重要性と推論の複雑さを強調した。
関連論文リスト
- Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Case Study [0.9424565541639368]
化学領域における大規模言語モデルの構成的推論能力を評価するために,キュレートされたデータセットと定義された評価プロセスからなる新しいベンチマークを導入する。
我々の手法はOpenAI推論モデルと名前付きエンティティ認識(NER)システムを統合し、最近の文献から化学物質を抽出し、外部知識ベースで拡張して知識グラフを形成する。
実験により, 最先端モデルでさえ, マルチホップ構成推論において重要な課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2025-04-23T04:36:19Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't [9.944647907864256]
本稿では,言語的要因が自動音声認識(ASR)モデルの性能に与える影響について検討する。
15の書き起こしシステムを持つ25言語で、多言語で教師付き事前訓練されたWav2Vec2-XLSR-53を微調整する。
論文 参考訳(メタデータ) (2024-06-13T14:59:45Z) - Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs) [0.35069196259739965]
言語的曖昧さは、自然言語処理(NLP)システムにとって重要な課題である。
近年のChatGPTやGeminiのような教育モデルの成功に触発されて,これらのモデルにおける言語的あいまいさを分析し,議論することを目的とした。
論文 参考訳(メタデータ) (2024-04-25T14:45:07Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。
ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-05-12T10:07:12Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。