Fugu-MT 論文翻訳(概要): Training Turn-by-Turn Verifiers for Dialogue Tutoring Agents: The Curious Case of LLMs as Your Coding Tutors

論文の概要: Training Turn-by-Turn Verifiers for Dialogue Tutoring Agents: The Curious Case of LLMs as Your Coding Tutors

arxiv url: http://arxiv.org/abs/2502.13311v1
Date: Tue, 18 Feb 2025 22:13:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.795716
Title: Training Turn-by-Turn Verifiers for Dialogue Tutoring Agents: The Curious Case of LLMs as Your Coding Tutors
Title（参考訳）: 対話型チュータリングエージェントのターン・バイ・トゥルン検証:コーディング・チュータとしてのLCMを例に
Authors: Jian Wang, Yinpei Dai, Yichi Zhang, Ziqiao Ma, Wenjie Li, Joyce Chai,
Abstract要約: 本稿では,学習者の知識状況とターン・バイ・ターン・バイ・ターン・バリデーションを推定し,タスク完了に向けた効果的な指導を確実にする,新しいエージェントワークフローであるTrace-and-Verify(TRAVER)を提案する。実験では、コーディングチュータリングの課題を明らかにし、TRAVERが成功率を大幅に向上することを示した。
参考スコア（独自算出の注目度）: 29.04639728020965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Intelligent tutoring agents powered by large language models (LLMs) have been increasingly explored to deliver personalized guidance in areas such as language learning and science education. However, their capabilities in guiding users to solve complex real-world tasks remain underexplored. To address this limitation, in this work, we focus on coding tutoring, a challenging problem that requires tutors to proactively guide students toward completing predefined coding tasks. We propose a novel agent workflow, Trace-and-Verify (TRAVER), which combines knowledge tracing to estimate a student's knowledge state and turn-by-turn verification to ensure effective guidance toward task completion. We introduce DICT, an automatic evaluation protocol that assesses tutor agents holistically using controlled student simulation and code generation tests. Extensive experiments reveal the challenges of coding tutoring and demonstrate that TRAVER achieves a significantly higher success rate. Although we use code tutoring as an example in this paper, our results and findings can be extended beyond coding, providing valuable insights into advancing tutoring agents for a variety of tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用した知的学習エージェントは、言語学習や科学教育などの分野においてパーソナライズされたガイダンスを提供するために、ますます研究されている。しかし、ユーザーが複雑な現実世界のタスクを解くのを誘導する能力は、まだ未熟である。この制限に対処するために、本稿では、事前に定義されたコーディングタスクの完了に向けて、教師が積極的に学生を指導する必要がある難しい問題である、コーディング・チュータリングに焦点をあてる。本稿では,学習者の知識状況とターン・バイ・ターン・バイ・ターン・バリデーションを推定し,タスク完了に向けた効果的な指導を確実にする,新しいエージェントワークフローであるTrace-and-Verify(TRAVER)を提案する。制御された学生シミュレーションとコード生成テストを用いて、教師エージェントを均等に評価する自動評価プロトコルであるDICTを紹介する。大規模な実験は、コーディングチュータリングの課題を明らかにし、TRAVERがはるかに高い成功率を達成することを実証する。この論文では、コードチュータリングを例として用いますが、結果や発見はコーディングを超えて拡張することができ、さまざまなタスクのためのチュータエージェントの進化に関する貴重な洞察を提供することができます。

関連論文リスト

CoderAgent: Simulating Student Behavior for Personalized Programming Learning with Large Language Models [34.62411261398559]
実データに頼ることなく,学生のプログラミングプロセスをきめ細かい方法でシミュレートするLLMエージェントCoderAgentを提案する。具体的には、人間の学習者に知的エージェントを配し、その中核となるのは、人間のプログラミング実践プロセスの認知状態を捉えることである。
論文参考訳（メタデータ） (2025-05-27T02:43:38Z)
Use Me Wisely: AI-Driven Assessment for LLM Prompting Skills Development [5.559706293891474]
大規模言語モデル(LLM)を利用したチャットボットは、様々な領域で普及し、様々なタスクやプロセスをサポートしている。しかし、プロンプトは非常にタスクに依存し、ドメインに依存しており、ジェネリックアプローチの有効性を制限している。本研究では, アドホックガイドラインと最小限の注釈付きプロンプトサンプルを用いて, LLM を用いた学習評価を促進できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-04T11:56:33Z)
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。 Llama-3 をベースとしたエージェントに実装することで,提案手法の有効性を実証し,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 をタスクセットで向上させる。
論文参考訳（メタデータ） (2025-02-03T17:45:46Z)
Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文参考訳（メタデータ） (2024-09-24T22:31:39Z)
Explainable Few-shot Knowledge Tracing [48.877979333221326]
本稿では,学生の記録から学生の知識をトラッキングし,自然言語による説明を提供する認知誘導フレームワークを提案する。 3つの広く使われているデータセットによる実験結果から、LLMは競合する深層知識追跡手法に匹敵する、あるいは優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T10:07:21Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
Next-Step Hint Generation for Introductory Programming Using Large Language Models [0.8002196839441036]
大きな言語モデルは、質問に答えたり、エッセイを書いたり、プログラミングの練習を解くといったスキルを持っている。本研究は,LLMが学生に次のステップの自動ヒントを提供することで,プログラミング教育にどう貢献できるかを考察する。
論文参考訳（メタデータ） (2023-12-03T17:51:07Z)
Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文参考訳（メタデータ） (2023-07-28T14:51:09Z)
Improving Knowledge Extraction from LLMs for Task Learning through Agent Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文参考訳（メタデータ） (2023-06-11T20:50:14Z)
Learning from Guided Play: A Scheduled Hierarchical Approach for Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文参考訳（メタデータ） (2021-12-16T14:58:08Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。