論文の概要: SCRIBE: Structured Chain Reasoning for Interactive Behaviour Explanations using Tool Calling
- arxiv url: http://arxiv.org/abs/2510.26322v1
- Date: Thu, 30 Oct 2025 10:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.751778
- Title: SCRIBE: Structured Chain Reasoning for Interactive Behaviour Explanations using Tool Calling
- Title(参考訳): SCRIBE:ツールコールによる対話行動記述のための構造的連鎖推論
- Authors: Fares Fawzi, Vinitra Swamy, Dominik Glandorf, Tanya Nazaretsky, Tanja Käser,
- Abstract要約: SCRIBEは、フィードバックレポートに関する学生の質問に対する有効な応答を生成するために、マルチホップでツール強化された推論のためのフレームワークである。
GPT-Judgeによる評価と108人の学生によるユーザスタディは、8B-SCRIBEモデルがより大きなモデルに匹敵する品質または優れた品質を達成していることを示している。
- 参考スコア(独自算出の注目度): 9.113268651219187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models can be used to provide interactive, personalized student feedback in educational settings. However, real-world deployment faces three key challenges: privacy concerns, limited computational resources, and the need for pedagogically valid responses. These constraints require small, open-source models that can run locally and reliably ground their outputs in correct information. We introduce SCRIBE, a framework for multi-hop, tool-augmented reasoning designed to generate valid responses to student questions about feedback reports. SCRIBE combines domain-specific tools with a self-reflective inference pipeline that supports iterative reasoning, tool use, and error recovery. We distil these capabilities into 3B and 8B models via two-stage LoRA fine-tuning on synthetic GPT-4o-generated data. Evaluation with a human-aligned GPT-Judge and a user study with 108 students shows that 8B-SCRIBE models achieve comparable or superior quality to much larger models in key dimensions such as relevance and actionability, while being perceived on par with GPT-4o and Llama-3.3 70B by students. These findings demonstrate the viability of SCRIBE for low-resource, privacy-sensitive educational applications.
- Abstract(参考訳): 言語モデルは、教育環境で対話的でパーソナライズされた学生のフィードバックを提供するために使用することができる。
しかし、現実のデプロイメントには、プライバシの懸念、限られた計算リソース、教育的に有効な応答の必要性の3つの大きな課題がある。
これらの制約は、ローカルで確実にアウトプットを正しい情報でグラウンドできる、小さなオープンソースモデルを必要とする。
本稿では,フィードバックレポートに関する学生の質問に対する有効な回答を生成するために,マルチホップ・ツール拡張推論のためのフレームワークであるSCRIBEを紹介する。
SCRIBEは、ドメイン固有のツールと、反復推論、ツール使用、エラー回復をサポートする自己反射型推論パイプラインを組み合わせる。
合成GPT-4o生成データを用いた2段階LoRA微調整により,これらの機能を3Bモデルと8Bモデルに分解する。
GPT-Judgeによる評価と108人の学生によるユーザスタディにより、8B-SCRIBEモデルは、GPT-4oやLlama-3.3 70Bと同等に知覚されながら、関連性や動作性などの重要な次元において、はるかに大きなモデルに匹敵する、あるいは優れた品質を達成していることが示された。
これらの結果は、低リソースでプライバシーに敏感な教育アプリケーションにおけるSCRIBEの実現可能性を示している。
関連論文リスト
- One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Towards an Efficient, Customizable, and Accessible AI Tutor [5.225254533678075]
本稿では,小型言語モデル(SLM)と頑健な検索機構を組み合わせた,オフラインの検索-拡張生成(RAG)パイプラインを提案する。
我々は,このパイプラインの有効性を,生物学のコースワークに焦点をあてて,ドメイン固有の教育コンテンツを用いて評価する。
論文 参考訳(メタデータ) (2025-10-04T13:33:40Z) - TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models [10.963195858672627]
TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。
サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。
我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
論文 参考訳(メタデータ) (2025-10-03T01:41:09Z) - Narrowing the Gap: Supervised Fine-Tuning of Open-Source LLMs as a Viable Alternative to Proprietary Models for Pedagogical Tools [42.84219003918423]
この研究は、Supervised Fine-Tuning (SFT)を通じて強化された、より小型で専門化された言語モデルが、教育ツールのより実用的な代替手段であることを示す。
そこで本研究では,CS1/2(Real Introductory Programming)とCS1/2(Real Introductory Programming)を併用した,4万個のCコンパイラのエラー説明データセットを構築した。
以上の結果から,SFTは小型モデルの教育的品質を著しく向上させ,より大きなモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2025-07-07T08:03:49Z) - Pushing the boundary on Natural Language Inference [49.15148871877941]
自然言語推論(NLI)は、ファクトチェック、質問応答、情報検索における自然言語理解の中心的なタスクである。
その重要性にもかかわらず、現在のNLIシステムは、アーティファクトやバイアス、推論、実世界の適用性を制限した学習に大きく依存している。
この作業は、品質や実世界の適用性を犠牲にすることなく、堅牢なNLIシステムを構築するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-25T14:20:57Z) - Prompt-Based Cost-Effective Evaluation and Operation of ChatGPT as a Computer Programming Teaching Assistant [0.0]
この記事では、そのようなアプリケーションに関連する3つの側面について研究する。
GPT-3.5T と GPT-4T の2つのモデルの性能評価を行った。
論文 参考訳(メタデータ) (2025-01-24T08:15:05Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。