論文の概要: Can Language Models Employ the Socratic Method? Experiments with Code
Debugging
- arxiv url: http://arxiv.org/abs/2310.03210v1
- Date: Wed, 4 Oct 2023 23:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:00:52.254191
- Title: Can Language Models Employ the Socratic Method? Experiments with Code
Debugging
- Title(参考訳): 言語モデルはソクラテス的手法を利用できるか?
コードデバッグの実験
- Authors: Erfan Al-Hossami, Razvan Bunescu, Justin Smith, Ryan Teehan
- Abstract要約: 本稿では,初心者プログラマが簡単な計算問題に対してバグ修正を行うのを支援するためのマルチターンソクラティックアドバイスのデータセットを紹介する。
このデータセットは、命令ベースのテキスト・トゥ・テキスト・トランスフォーマー-T5の微調整からゼロショット、さらに大きなGPT-4の思考の連鎖まで、多くの言語モデルのソクラティックデバッグ能力のベンチマークに使用される。
- 参考スコア(独自算出の注目度): 1.2776694801834354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When employing the Socratic method of teaching, instructors guide students
toward solving a problem on their own rather than providing the solution
directly. While this strategy can substantially improve learning outcomes, it
is usually time-consuming and cognitively demanding. Automated Socratic
conversational agents can augment human instruction and provide the necessary
scale, however their development is hampered by the lack of suitable data for
training and evaluation. In this paper, we introduce a manually created dataset
of multi-turn Socratic advice that is aimed at helping a novice programmer fix
buggy solutions to simple computational problems. The dataset is then used for
benchmarking the Socratic debugging abilities of a number of language models,
ranging from fine-tuning the instruction-based text-to-text transformer Flan-T5
to zero-shot and chain of thought prompting of the much larger GPT-4. The code
and datasets are made freely available for research at the link below.
https://github.com/taisazero/socratic-debugging-benchmark
- Abstract(参考訳): ソクラテス的な指導方法を採用する場合、インストラクターは生徒にソリューションを直接提供するのではなく、自分で問題解決を指導する。
この戦略は学習結果を大幅に改善するが、通常は時間をかけて認知的に要求される。
ソクラテス自動会話エージェントは、人間の指導を増強し、必要な規模を提供することができるが、訓練や評価に適したデータが不足しているため、その開発が妨げられる。
本稿では,初心者プログラマが簡単な計算問題に対してバグ修正を行うのを支援するための,マルチターンソクラティックアドバイスのデータセットを手作業で作成する。
このデータセットは、命令ベースのテキスト-テキスト変換器Flan-T5の微調整からゼロショット、さらに大きなGPT-4の思考の連鎖まで、多くの言語モデルのソクラティックデバッグ能力のベンチマークに使用される。
コードとデータセットは、下のリンクで自由に研究することができる。
https://github.com/taisazero/socratic-debugging-benchmark
関連論文リスト
- Boosting Large Language Models with Socratic Method for Conversational Mathematics Teaching [28.770954139539946]
本稿では,ソクラティック教育に基づく LLM (textttSocraticLLM) による数学教育の能力向上に焦点をあてる。
我々は、ソクラテス的な問題と余分な知識の会話を提供する、texttSocraticMATHという高品質な数学的教育データセットを収集、リリースする。
また,知識強化LLMを強力なベースラインとして提案し,レビュー,ガイダンス,ヒューリスティック,修正,要約による信頼性の高い応答を生成する。
論文 参考訳(メタデータ) (2024-07-24T15:18:17Z) - Benchmarking LLMs for Optimization Modeling and Enhancing Reasoning via Reverse Socratic Synthesis [60.23133327001978]
大規模言語モデル(LLM)は、数学的推論においてその問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるE-OPTを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - A GPT-based Code Review System for Programming Language Learning [0.0]
本研究は,GPT-4を用いて学習者フレンドリなコードレビューを提供し,AIアシスト不正行為のリスクを最小限に抑えるシステムを提案する。
改良されたシステムは、厳格なコード正当性チェック、応答時間、API呼び出しコストの低減、コードレビューの品質の4つの基準に基づいて、ソフトウェア教育の専門家による評価を受けた。
論文 参考訳(メタデータ) (2024-06-21T12:16:01Z) - Instruct, Not Assist: LLM-based Multi-Turn Planning and Hierarchical Questioning for Socratic Code Debugging [27.70379206820154]
ソクラテス質問は効果的な教育戦略であり、批判的思考と問題解決を奨励する。
TreeInstructは、学生が個別にエラーを特定し、解決するのを助けるために、探索的な質問をする。
学生の概念的・統語的知識を推定し、その反応と現在の知識状態に基づいて質問ツリーを動的に構築する。
論文 参考訳(メタデータ) (2024-06-17T16:28:21Z) - A Knowledge-Component-Based Methodology for Evaluating AI Assistants [9.412070852474313]
GPT-4をベースとしたCS1プログラム代入のためのヒント自動生成システムの評価を行った。
本システムは,学生が短時間のプログラミング演習において,誤った解法をいかに改善できるか,という自然言語指導を提供する。
論文 参考訳(メタデータ) (2024-06-09T00:58:39Z) - Improving Socratic Question Generation using Data Augmentation and Preference Optimization [2.1485350418225244]
大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。
これらの LLM をプロンプトする既存の手法は、時に無効な出力を生成する。
本研究では,既存のソクラテス質問データセットを,特定の方法で無効な質問で強化するデータ拡張手法を提案する。
次に,LLama 2 などのオープンソース LLM の最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T00:08:20Z) - Kun: Answer Polishment for Chinese Self-Alignment with Instruction
Back-Translation [51.43576926422795]
Kunは、手動のアノテーションに頼ることなく、大きな言語モデル(LLM)のための高品質な命令チューニングデータセットを作成するための新しいアプローチである。
我々は、Wudao、Wanjuan、SkyPileなど、さまざまな情報源から収集された不正なデータを活用して、100万以上の中国語の命令データポイントの実質的なデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-12T09:56:57Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。