Fugu-MT 論文翻訳(概要): Temporal Stability and Few-Shot Prompting in Math Task Assessment

論文の概要: Temporal Stability and Few-Shot Prompting in Math Task Assessment

arxiv url: http://arxiv.org/abs/2605.30151v1
Date: Thu, 28 May 2026 16:10:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.471743
Title: Temporal Stability and Few-Shot Prompting in Math Task Assessment
Title（参考訳）: 数学タスクアセスメントにおける時間的安定性とFew-Shot Prompting
Authors: Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey, Christian D. Schunn,
Abstract要約: 本研究は,タスク分析ガイドを用いて数学タスクの認知的要求を分類するAIツールの能力に着目した。我々は、汎用AIツール(Gemini)と教育特化AIツール(Coteach)をテストした。ジェミニの精度は58%で安定し、コティーチの精度は75%から50%に低下した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As AI tools become increasingly integrated into educational contexts, questions arise about both their stability over time and their responsiveness to prompt engineering techniques. This longitudinal study focused on different AI tools' ability to use the Task Analysis Guide (TAG; Stein \& Smith, 1998) to classify the cognitive demand of mathematics tasks. In particular, it examined whether this classification ability changed with (1) model version updates over time and (2) few-shot prompting using exemplar tasks. We tested a general-purpose AI tool (Gemini) and an education-specific AI tool (Coteach). The specific tools were selected because of their relatively high performance on relevant published benchmarks and prior task-specific tests. Models were tested at baseline, retested with model version updates, and then tested again using few-shot prompting (two exemplar tasks for each cognitive demand category). Results revealed that newer model versions alone produced mixed effects: Gemini's accuracy remained stable at 58\%, while Coteach's accuracy decreased from 75\% to 50\%. However, few-shot prompting improved both models' performance: Gemini increased to 67\% and Coteach recovered to 75\% accuracy. These findings demonstrate that prompt engineering techniques can have larger and more reliable effects than passive model improvements, and that version updates may not always improve performance on specialized educational tasks. The study has important implications for how educators and researchers should approach AI tool selection, evaluation, and implementation in educational contexts.
Abstract（参考訳）: AIツールが教育の文脈にますます統合されるにつれて、時間の経過とともに安定性が向上し、エンジニアリングテクニックの迅速な応答性にも疑問が浮かび上がる。この縦断的研究は、数学タスクの認知的要求を分類するためにタスク分析ガイド(TAG; Stein \& Smith, 1998)を使用するさまざまなAIツールの能力に焦点を当てた。特に,この分類能力は,(1)モデルバージョン更新の時間とともに変化したか,(2)模範タスクを用いた少数ショットプロンプトによって変化したかを検討した。我々は、汎用AIツール(Gemini)と教育固有のAIツール(Coteach)をテストした。特定のツールは、関連するベンチマークと以前のタスク固有のテストで比較的高いパフォーマンスで選択された。モデルはベースラインでテストされ、モデルバージョンのアップデートで再テストされ、数発のプロンプト(認知要求カテゴリごとに2つの典型的なタスク)を使用して再度テストされた。ジェミニの精度は58 %で安定し、コティーチの精度は75 %から50 %に低下した。ジェミニは67\%まで増加し、コティーチは75\%まで回復した。これらの結果は、迅速なエンジニアリング技術は受動的モデルの改善よりも大きく、より信頼性の高い効果が得られることを示し、バージョン更新は特別な教育タスクのパフォーマンスを常に改善するとは限らないことを示している。この研究は、教育の文脈におけるAIツールの選択、評価、実装への教育者や研究者のアプローチに重要な意味を持っている。

関連論文リスト

Can AI Tools Transform Low-Demand Math Tasks? An Evaluation of Task Modification Capabilities [0.0]
本研究では,AIツールが低認知能力の数学タスクをアップグレードできるかどうかを検討した。平均すると、AIツールは適度に成功しただけであり、タスクは正確に64%しかアップグレードされなかった。特殊ツールは汎用ツールよりも適度に成功しただけだった。
論文参考訳（メタデータ） (2026-04-14T13:57:09Z)
Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks [0.0]
私たちは、認知的要求の4レベルにわたって数学のタスクを分類する能力に基づいて、11のAIツールをテストしました。平均して、AIツールは認知的需要を63%のケースで正確に分類した。すべてのツールは、認知的要求の極端にタスクに苦しんだ。
論文参考訳（メタデータ） (2026-03-03T20:39:55Z)
DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science [31.00353091375463]
DARE-benchは機械学習モデリングとデータサイエンスのインストラクションのためのベンチマークである。 6300のKaggleから派生したタスクで構成され、大規模なトレーニングデータと評価セットの両方を提供する。 DARE-benchトレーニングタスクを微調整に使用すると、モデルのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2026-02-27T18:58:57Z)
AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文参考訳（メタデータ） (2025-10-14T02:17:54Z)
Benchmark-Driven Selection of AI: Evidence from DeepSeek-R1 [0.0]
より優れたパフォーマンスは、必ずしもテスト時のアルゴリズム改善やモデルサイズによってもたらされるのではなく、影響のあるベンチマークを学習のカリキュラムとして使用することによってもたらされることを示す。我々は、このベンチマーク駆動によるAIの選択と呼び、HumanityのLast Examからのシーケンシャルな意思決定問題を使用して、DeepSeek-R1への影響を示す。
論文参考訳（メタデータ） (2025-08-13T20:15:20Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
Chatbots im Schulunterricht: Wir testen das Fobizz-Tool zur automatischen Bewertung von Hausaufgaben [0.0]
本研究では,ドイツのFobizz社によるAIによるグレーディングツール"AI Grading Assistant"について検討した。ツールの数値グレードと定性的フィードバックは、しばしばランダムであり、提案が組み込まれても改善されない。この研究は、教育における体系的な問題に対する迅速な修正としてAIを採用するというより広い傾向を批判している。
論文参考訳（メタデータ） (2024-12-09T16:50:02Z)
The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。 LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文参考訳（メタデータ） (2024-11-11T18:59:45Z)
TOOLVERIFIER: Generalization to New Tools via Self-Verification [69.85190990517184]
本稿では,ツール選択中にコントラスト質問を自己問合せすることで,近接候補を識別する自己検証手法を提案する。 ToolBenchベンチマークによる4つのタスクの実験では、17の見えないツールで構成されており、数ショットのベースラインよりも平均22%改善されている。
論文参考訳（メタデータ） (2024-02-21T22:41:38Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。