Fugu-MT 論文翻訳(概要): Can LLMs Identify Gaps and Misconceptions in Students' Code Explanations?

論文の概要: Can LLMs Identify Gaps and Misconceptions in Students' Code Explanations?

arxiv url: http://arxiv.org/abs/2501.10365v1
Date: Mon, 09 Dec 2024 19:42:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-16 22:53:28.643591
Title: Can LLMs Identify Gaps and Misconceptions in Students' Code Explanations?
Title（参考訳）: LLMは生徒のコード説明におけるギャップと誤解を識別できるか?
Authors: Priti Oli, Rabin Banjade, Andrew M. Olney, Vasile Rus,
Abstract要約: 本稿では,Large Language Models (LLMs) を用いて,学生による特定の教材の自己説明におけるギャップや誤解を識別する手法について検討する。単純なプロンプトにより、GPT-4はLLaMA3とMistralを一貫して上回り、ギャップと誤解を識別した。この結果から, 微調整された大規模言語モデルは, 学生の説明のギャップを識別する上で, より効果的であることが示唆された。
参考スコア（独自算出の注目度）: 0.3015291944961405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates various approaches using Large Language Models (LLMs) to identify gaps and misconceptions in students' self-explanations of specific instructional material, in our case explanations of code examples. This research is a part of our larger effort to automate the assessment of students' freely generated responses, focusing specifically on their self-explanations of code examples during activities related to code comprehension. In this work, we experiment with zero-shot prompting, Supervised Fine-Tuning (SFT), and preference alignment of LLMs to identify gaps in students' self-explanation. With simple prompting, GPT-4 consistently outperformed LLaMA3 and Mistral in identifying gaps and misconceptions, as confirmed by human evaluations. Additionally, our results suggest that fine-tuned large language models are more effective at identifying gaps in students' explanations compared to zero-shot and few-shot prompting techniques. Furthermore, our findings show that the preference optimization approach using Odds Ratio Preference Optimization (ORPO) outperforms SFT in identifying gaps and misconceptions in students' code explanations.
Abstract（参考訳）: 本稿では,Large Language Models (LLMs) を用いて,特定の教材の自己説明におけるギャップや誤解の同定を行う。本研究は,学生の自由度評価の自動化に向けた大きな取り組みの一環であり,コード理解に関わる活動におけるコード例の自己説明に焦点を当てたものである。本研究では,ゼロショットプロンプト,スーパービジョンファインチューニング(SFT),LLMの選好アライメントを用いて,学生の自己説明のギャップを識別する実験を行った。単純なプロンプトにより、GPT-4はLLaMA3とMistralを一貫して上回り、人間の評価によって確認されたギャップと誤解を識別した。さらに,本研究の結果は,ゼロショットや少数ショットのプロンプト技術と比較して,学生の説明のギャップを識別する上で,微調整された大規模言語モデルの方が有効であることが示唆された。さらに,Odds Ratio Preference Optimization (ORPO) を用いた選好最適化手法は,学生のコード説明におけるギャップや誤解を識別する上で,SFTよりも優れていることを示した。

関連論文リスト

Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文参考訳（メタデータ） (2025-04-07T23:57:32Z)
Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文参考訳（メタデータ） (2024-07-09T05:48:42Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Instruction Tuning with Retrieval-based Examples Ranking for Aspect-based Sentiment Analysis [7.458853474864602]
アスペクトベースの感情分析(ABSA)は、特定の側面に関連する感情情報を識別し、企業や組織に対してより深い市場洞察を提供する。近年の研究では、ABSAを生成タスクとして再構成する命令チューニングの固定例が提案されている。本研究では,ABSAタスクの検索に基づくサンプルランキングを用いた指導学習手法を提案する。
論文参考訳（メタデータ） (2024-05-28T10:39:10Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Unlocking the Potential of Large Language Models for Explainable Recommendations [55.29843710657637]
説明ジェネレータを最近登場した大規模言語モデル(LLM)に置き換える影響は、まだ不明である。本研究では,シンプルで効果的な2段階説明可能なレコメンデーションフレームワークであるLLMXRecを提案する。いくつかの重要な微調整技術を採用することで、制御可能で流動的な説明が十分に生成できる。
論文参考訳（メタデータ） (2023-12-25T09:09:54Z)
Automated Assessment of Students' Code Comprehension using LLMs [0.3293989832773954]
大規模言語モデル(LLM)とエンコーダベースのセマンティックテキスト類似(STS)モデルを評価する。この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-12-19T20:39:12Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Complementary Explanations for Effective In-Context Learning [77.83124315634386]
大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。
論文参考訳（メタデータ） (2022-11-25T04:40:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。