論文の概要: Socratic Students: Teaching Language Models to Learn by Asking Questions
- arxiv url: http://arxiv.org/abs/2512.13102v1
- Date: Mon, 15 Dec 2025 08:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.591574
- Title: Socratic Students: Teaching Language Models to Learn by Asking Questions
- Title(参考訳): ソクラテスの学生:質問に答えて学ぶための言語モデル
- Authors: Rajeev Bhatt Ambati, Tianyi Niu, Aashu Singh, Shlok Mishra, Shashank Srivastava, Snigdha Chaturvedi,
- Abstract要約: 学生主導のアプローチは、静的なベースラインよりも少なくとも0.5以上の絶対的なPass@kの改善をもたらすことを示す。
直接選好最適化(DPO)を用いて,自己あるいはより強い学生から指導を受けた学生を訓練する。
- 参考スコア(独自算出の注目度): 21.491718334670107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at static interactions, where they answer user queries by retrieving knowledge encoded in their parameters. However, in many real-world settings, such as educational tutoring or medical assistance, relevant information is not directly available and must be actively acquired through dynamic interactions. An interactive agent would recognize its own uncertainty, ask targeted questions, and retain new knowledge efficiently. Prior work has primarily explored effective ways for a teacher to instruct the student, where the teacher identifies student gaps and provides guidance. In this work, we shift the focus to the student and investigate effective strategies to actively query the teacher in seeking useful information. Across math and coding benchmarks, where baseline student models begin with near-zero performance, we show that student-led approaches consistently yield absolute Pass@k improvements of at least 0.5 over static baselines. To improve question quality, we train students using Direct Preference Optimization (DPO) with guidance from either self or stronger students. We find that this guided training enables smaller models to learn how to ask better questions, further enhancing learning efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は静的相互作用において優れており、パラメータにエンコードされた知識を取得することでユーザクエリに答える。
しかし、教育指導や医療支援など、現実世界の多くの環境において、関連する情報は直接利用できず、動的相互作用を通じて積極的に取得されなければならない。
対話的なエージェントは、自身の不確実性を認識し、対象とする質問をし、新しい知識を効率的に保持する。
先行研究は、教師が生徒に教える効果的な方法を探究しており、教師は生徒のギャップを認識し、指導を行う。
本研究は,学生に焦点を移し,教師に有用な情報を求めるための効果的な方策を探求するものである。
数学とコーディングのベンチマークでは、ベースラインの学生モデルはほぼゼロのパフォーマンスから始まり、学生主導のアプローチは、静的なベースラインよりも0.5以上の絶対的なPass@k改善をもたらす。
質問品質を向上させるために,自己あるいはより強い学生から指導を受けた直接選好最適化(DPO)を用いて学生を訓練する。
このガイド付きトレーニングによって、より小さなモデルでより良い質問をする方法を学ぶことができ、学習効率をさらに向上できることがわかった。
関連論文リスト
- Teaching According to Students' Aptitude: Personalized Mathematics Tutoring via Persona-, Memory-, and Forgetting-Aware LLMs [28.594039597149266]
我々は,ペルソナ,記憶,ダイナミクスを取り入れた学習支援フレームワークであるTAS(Teaching Based by Students' Aptitude)を提案する。
具体的には、TASAは、熟練度プロファイルをキャプチャする構造化された学生ペルソナと、事前学習インタラクションを記録するイベントメモリを維持している。
TASAは、学習者の熟達状態を動的に更新し、文脈的に適切で難解な質問や説明を生成する。
論文 参考訳(メタデータ) (2025-11-19T06:28:16Z) - UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。
最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。
これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文 参考訳(メタデータ) (2025-11-12T01:27:02Z) - Distilling Realizable Students from Unrealizable Teachers [9.968083244726941]
特権情報に基づく政策蒸留について検討し, 一部観察のみの学生政策は, フルステートアクセスの教師から学ぶ必要がある。
既存のアプローチでは、教師が実現可能ではあるが準最適のデモを作成するように変更するか、または学生に頼って、欠落した情報を独立して調査する。
i) 学生が教師に補正を問い合わせるべき時期を適応的に決定する模倣学習手法と, (ii) 効率的な探索のためにトレーニングを初期化する場所を選択する強化学習手法を導入する。
論文 参考訳(メタデータ) (2025-05-14T16:45:51Z) - Revealing Networks: Understanding Effective Teacher Practices in
AI-Supported Classrooms using Transmodal Ordered Network Analysis [0.9187505256430948]
本研究は,AI教師と連携した数学教室において,システム内学習の伝統的な指標に関連する効果的な教員の実践を理解するために,トランスモーダル順序ネットワーク分析を用いた。
教師の実践を学生の学習率で比較すると,低学率の生徒はモニタリング後,より有意な使用感を示した。
学習率の低い生徒は、高学率の学生と同様の学習行動を示し、教師の正しい試みを繰り返した。
論文 参考訳(メタデータ) (2023-12-17T21:50:02Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Know Thy Student: Interactive Learning with Gaussian Processes [11.641731210416102]
そこで本研究では,ガウス過程を用いた簡単な診断アルゴリズムを提案する。
本研究は,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境である。
本実験は,対話型教師の助けを借りて,学生がより効率的に学習できる方法を示す。
論文 参考訳(メタデータ) (2022-04-26T04:43:57Z) - RLTutor: Reinforcement Learning Based Adaptive Tutoring System by
Modeling Virtual Student with Fewer Interactions [10.34673089426247]
本稿では,学生の仮想モデルを構築し,指導戦略を最適化する枠組みを提案する。
この結果は,eラーニングシステムにおける理論的指導最適化と実践的応用のバッファとして機能する。
論文 参考訳(メタデータ) (2021-07-31T15:42:03Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。