Fugu-MT 論文翻訳(概要): EduBot -- Can LLMs Solve Personalized Learning and Programming Assignments?

論文の概要: EduBot -- Can LLMs Solve Personalized Learning and Programming Assignments?

arxiv url: http://arxiv.org/abs/2504.17824v1
Date: Wed, 23 Apr 2025 23:25:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.519515
Title: EduBot -- Can LLMs Solve Personalized Learning and Programming Assignments?
Title（参考訳）: EduBot - LLMはパーソナライズドラーニングとプログラミングの課題を解決できるか?
Authors: Yibin Wang, Jiaxi Xie, Lakshminarayanan Subramanian,
Abstract要約: EduBotは、概念知識教育、エンドツーエンドのコード開発、パーソナライズされたプログラミングを組み合わせたインテリジェントな自動アシスタントシステムである。 EduBotは,タスクサブタスクからなる複雑なプログラミングタスクを,難易度を増すことなく解決できることを示す。
参考スコア（独自算出の注目度）: 5.368221703783741
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The prevalence of Large Language Models (LLMs) is revolutionizing the process of writing code. General and code LLMs have shown impressive performance in generating standalone functions and code-completion tasks with one-shot queries. However, the ability to solve comprehensive programming tasks with recursive requests and bug fixes remains questionable. In this paper, we propose EduBot, an intelligent automated assistant system that combines conceptual knowledge teaching, end-to-end code development, personalized programming through recursive prompt-driven methods, and debugging with limited human interventions powered by LLMs. We show that EduBot can solve complicated programming tasks consisting of sub-tasks with increasing difficulties ranging from conceptual to coding questions by recursive automatic prompt-driven systems without finetuning on LLMs themselves. To further evaluate EduBot's performance, we design and conduct a benchmark suite consisting of 20 scenarios in algorithms, machine learning, and real-world problems. The result shows that EduBot can complete most scenarios in less than 20 minutes. Based on the benchmark suites, we perform a comparative study to take different LLMs as the backbone and to verify EduBot's compatibility and robustness across LLMs with varying capabilities. We believe that EduBot is an exploratory approach to explore the potential of pre-trained LLMs in multi-step reasoning and code generation for solving personalized assignments with knowledge learning and code generation.
Abstract（参考訳）: 大規模言語モデル(LLM)の流行は、コードを書くプロセスに革命をもたらしています。一般的なLLMとコードLLMは、スタンドアロン機能とワンショットクエリによるコード補完タスクの生成において、素晴らしいパフォーマンスを示している。しかし、再帰的な要求やバグ修正で包括的なプログラミングタスクを解く能力には疑問が残る。本稿では,概念知識教育,エンド・ツー・エンドのコード開発,再帰的プロンプト駆動方式によるパーソナライズプログラミング,LLMを利用した限定的なヒューマン介入によるデバッグを組み合わせた,インテリジェントな自動アシスタントシステムであるEduBotを提案する。 EduBotは,LLM自体を微調整することなく,再帰的な自動プロンプト駆動システムによって,概念からコーディング問題に至るまで,難易度の高いサブタスクからなる複雑なプログラミングタスクを解くことができることを示す。 EduBotのパフォーマンスをさらに評価するために、アルゴリズム、機械学習、実世界の問題における20のシナリオからなるベンチマークスイートを設計し、実行します。その結果、EduBotは20分以内でほとんどのシナリオを完了できることがわかった。ベンチマークスイートに基づいて、異なるLLMをバックボーンとして、さまざまな機能を備えたLLM間のEduBotの互換性と堅牢性を検証するための比較研究を行う。 EduBotは、知識学習とコード生成によるパーソナライズされた課題を解決するための多段階推論とコード生成において、事前学習されたLLMの可能性を探究するための探索的アプローチであると考えている。

関連論文リスト

From Prompts to Performance: Evaluating LLMs for Task-based Parallel Code Generation [39.426381252597146]
大規模言語モデルは、コード生成において強力な能力を示すが、効率的な並列プログラムを作成するスキルは、あまり研究されていない。本稿では,LLMが3種類の入力プロンプトからタスクベースの並列コードを生成する方法について検討する。我々は,OpenMP Tasking,C++標準並列処理,非同期多タスクランタイムHPXの3つのプログラミングフレームワークに注目した。
論文参考訳（メタデータ） (2026-02-24T09:49:10Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
DebugTA: An LLM-Based Agent for Simplifying Debugging and Teaching in Programming Education [32.673843958049254]
プログラミングと指導(DT)タスクでは、学生は誤ったコードを修正する支援を受ける。 DebugTA, 標準コード検索専用ツール, 参照コード調整用変数置換, リアルタイムコード解析用外部コンパイラを提案する。 DebugTAは、計算コストを大幅に削減しつつ、教育効率を継続的に改善することを示す。
論文参考訳（メタデータ） (2025-10-13T07:17:18Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
Analyzing LLM Usage in an Advanced Computing Class in India [4.580708389528142]
本研究では,大規模言語モデル(LLM)を,大学院生や大学院生が高度なコンピューティングクラスにおけるプログラミング課題に活用することを検討した。インド大学の分散システムクラスから411名の学生を対象に,総合的な分析を行った。
論文参考訳（メタデータ） (2024-04-06T12:06:56Z)
Code Simulation Challenges for Large Language Models [6.970495767499435]
この研究は、LLM(Large Language Models)がいかにコーディングやアルゴリズムのタスクをシミュレートできるかを研究する。我々は、直線プログラムのベンチマーク、クリティカルパスを含むコード、近似命令および冗長命令を導入する。本稿では,コンパイラのパターンを行/フォローすることで,LLMにコード実行行をシミュレートするように指示する,OFFプロンプト手法であるChain of Simulation(CoSm)を提案する。
論文参考訳（メタデータ） (2024-01-17T09:23:59Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Automated Assessment of Students' Code Comprehension using LLMs [0.3293989832773954]
大規模言語モデル(LLM)とエンコーダベースのセマンティックテキスト類似(STS)モデルを評価する。この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-12-19T20:39:12Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
LEMMA: Learning Language-Conditioned Multi-Robot Manipulation [21.75163634731677]
LanguagE-Conditioned Multi-robot Manipulation (LEMMA) LeMMAは、手続き的に生成されるタスクが8種類あり、複雑さは様々である。それぞれのタスクに対して,800の専門的なデモンストレーションと,トレーニングと評価のためのヒューマンインストラクションを提供します。
論文参考訳（メタデータ） (2023-08-02T04:37:07Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)
Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文参考訳（メタデータ） (2023-04-20T17:09:12Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。