論文の概要: Scalable and Personalized Oral Assessments Using Voice AI
- arxiv url: http://arxiv.org/abs/2603.18221v1
- Date: Wed, 18 Mar 2026 19:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.824717
- Title: Scalable and Personalized Oral Assessments Using Voice AI
- Title(参考訳): 音声AIを用いたスケーラブルでパーソナライズドな口腔アセスメント
- Authors: Panos Ipeirotis, Konstantinos Rizakos,
- Abstract要約: 学生1人当たり15ドル(0.42ドル)で、学部AI/MLコースで36回の口腔検査を行ったシステムについて述べる。
LLMはルーブリックから動的に質問を生成するため、試験構造全体を事前に共有することができる。
マルチエージェントアーキテクチャは、各試験を構造化フェーズに分解し、3つのLLMファミリーのカウンシルが各転写をグレードする。
- 参考スコア(独自算出の注目度): 0.14323566945483493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have broken take-home exams. Students generate polished work they cannot explain under follow-up questioning. Oral examinations are a natural countermeasure -- they require real-time reasoning and cannot be outsourced to an LLM -- but they have never scaled. Voice AI changes this. We describe a system that conducted 36 oral examinations for an undergraduate AI/ML course at a total cost of \$15 (\$0.42 per student), low enough to attach oral comprehension checks to every assignment rather than reserving them for high-stakes finals. Because the LLM generates questions dynamically from a rubric, the entire examination structure can be shared in advance: practice is learning, and there is no exam to leak. A multi-agent architecture decomposes each examination into structured phases, and a council of three LLM families grades each transcript through a deliberation round in which models revise scores after reviewing peer evidence, achieving inter-rater reliability (Krippendorff's $α$ = 0.86) above conventional thresholds. But the system also broke in instructive ways: the agent stacked questions despite explicit prohibitions, could not randomize case selection, and a cloned professorial voice was perceived as aggressive rather than familiar. The recurring lesson is that behavioral constraints on LLMs must be enforced through architecture, not prompting alone. Students largely agreed the format tested genuine understanding (70%), yet found it more stressful than written exams (83%) -- unsurprising given that 83% had never taken any oral examination. We document the full design, failure modes, and student experience, and include all prompts as appendices.
- Abstract(参考訳): 大規模な言語モデルは家庭内試験に失敗している。
学生は、フォローアップの質問で説明できない洗練された仕事を生成します。
口頭検査は自然な対策であり、リアルタイムな推論が必要であり、LSMにアウトソースすることはできない。
音声AIがこれを変える。
本報告では,学部生のAI/MLコースにおいて,36回の口腔検査を合計15ドル(学生1人あたり0.42ドル)で実施したシステムについて述べる。
LLMはルーブリックから動的に質問を生成するため、試験構造全体を事前に共有することができる。
マルチエージェントアーキテクチャは各試験を構造化相に分解し、3つのLLMファミリーの協議会は、従来のしきい値より高い信頼性(クリッペンドルフの$α$ = 0.86)を達成し、ピアエビデンスをレビューした後のスコアをモデルが修正する検討ラウンドを通じて、各転写をグレードする。
エージェントは明示的な禁止にもかかわらず質問を積み重ね、ケースの選択をランダムにすることができず、クローン化された教授の声は親しみなく攻撃的であると認識された。
繰り返し見られる教訓は、LLMの振る舞いの制約はアーキテクチャを通して実施されなければならないということだ。
学生たちは、本質的な理解(70%)をテストしてみたが、83%が口頭検査を受けなかったことを考えると、書面試験(83%)よりもストレスが強いと判断した。
完全な設計、障害モード、学生体験を文書化し、すべてのプロンプトを付録として含めます。
関連論文リスト
- FoundationalASSIST: An Educational Dataset for Foundational Knowledge Tracing and Pedagogical Grounding of LLMs [0.8399688944263842]
FoundationalASSISTは、大規模言語モデルの研究に必要な完全な情報を提供する最初の英語教育データセットである。
5000人の学生による170万のインタラクションは、これまで追求できなかった研究の方向性を可能にしている。
論文 参考訳(メタデータ) (2026-01-20T17:47:30Z) - Beyond Memorization: Testing LLM Reasoning on Unseen Theory of Computation Tasks [8.210112631285666]
大規模言語モデル(LLM)は、形式的な言語タスクにおいて強力なパフォーマンスを示している。
正規言語を用いた決定論的有限オートマトン (DFA) 構築のためのベンチマークを導入する。
モデルが実際の質問に対して完璧に精度を達成し、タスクに対して84-90%を達成できることを示すが、その精度は目に見えない問題に対して急激に低下する。
論文 参考訳(メタデータ) (2026-01-19T21:00:31Z) - Can Consumer Chatbots Reason? A Student-Led Field Experiment Embedded in an "AI-for-All" Undergraduate Course [0.7515394929245942]
本稿では,ジョージ・メイソン大学のUNIV 182(AI4All)の中間プロジェクトとして,学生主導のフィールド実験を行った。
学生は、独自の推論タスクを設計し、現在使われている消費者チャットボット上で実行し、(i)回答の正しさと(ii)推論の有効性を評価した。
OpenAI GPT-5 と Claude 4.5 は最高平均解答精度 (86.2% と 83.8%) を獲得し、Grok 4 (82.5%) と Perplexity (73.1%) が続いた。
論文 参考訳(メタデータ) (2025-12-28T22:51:25Z) - MedForget: Hierarchy-Aware Multimodal Unlearning Testbed for Medical AI [66.0701326117134]
MedForgetは、階層型を意識したマルチモーダルなアンラーニングテストベッドで、準拠する医療AIシステムを構築する。
既存の手法は,診断性能を低下させることなく,完全かつ階層性に配慮した忘れの解決に苦慮していることを示す。
階層レベルのコンテキストをプロンプトに徐々に追加する再構成攻撃を導入する。
論文 参考訳(メタデータ) (2025-12-10T17:55:06Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。