論文の概要: Inference Energy and Latency in AI-Mediated Education: A Learning-per-Watt Analysis of Edge and Cloud Models
- arxiv url: http://arxiv.org/abs/2603.20223v1
- Date: Wed, 04 Mar 2026 13:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.909433
- Title: Inference Energy and Latency in AI-Mediated Education: A Learning-per-Watt Analysis of Edge and Cloud Models
- Title(参考訳): AI媒介教育における推論エネルギーとレイテンシ:エッジモデルとクラウドモデルの学習/学習分析
- Authors: Kushal Khemani,
- Abstract要約: NVIDIA T4 GPU上で、Microsoft Phi-3 Mini(4k命令)のデバイス上の2つの推論構成を比較した。
5つの中等教育領域にまたがる500の教育プロンプトを対象に,KV-cache型推論で評価した。
NF4はFP16よりも低遅延(13.4 s vs. 9.2 s)を実現し、品質差0.19ポイントでLpWのFP16の優位性はわずかである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Immediate feedback is a foundational requirement of effective AI-mediated learning, yet the energy and latency costs of delivering it remain largely unexamined. This study investigates the latency-energy-learning trade-off in AI tutoring through an empirical comparison of two on-device inference configurations of Microsoft Phi-3 Mini (4k-instruct) on an NVIDIA T4 GPU: full-precision FP16 and 4-bit NormalFloat (NF4) quantisation. Both were evaluated under KV-cache-enabled inference across 500 educational prompts spanning five secondary school subject domains. Pedagogical quality was assessed for each of the 1000 generated responses by a hybrid panel of 10 Cambridge International teachers and three frontier AI systems using a four-dimension rubric. We introduce Learning-per-Watt (LpW), a novel metric quantifying pedagogical value per unit of energy over the learner's waiting window. Under realistic deployment, NF4 achieves lower per-inference energy than FP16 (329 J vs. 369 J) but higher latency (13.4 s vs. 9.2 s), yielding a modest FP16 advantage in LpW of 1.33x at a quality difference of 0.19 points. Under cache-disabled inference -- used in offline evaluation but absent from real deployments -- the gap widens to 7.4x, overstating the FP16 advantage by more than fivefold. Quantisation efficiency is hardware-dependent and inference-regime dependent, with significant implications for equitable AI tutoring deployment in low-resource settings.
- Abstract(参考訳): 迅速なフィードバックは、効果的なAIによる学習の基本的な要件であるが、それを提供するためのエネルギーとレイテンシコストは、ほとんど検討されていないままである。
本研究では、NVIDIA T4 GPU上のMicrosoft Phi-3 Mini(4k-インストラクト)の2つのオンデバイス推論構成(フル精度FP16と4ビット正規Float(NF4)量子化)を実証的に比較し、AI学習における遅延-エネルギー-学習トレードオフについて検討した。
5つの中等教育領域にまたがる500の教育プロンプトを対象に,KV-cache型推論で評価した。
10人のケンブリッジ国際教師と3人のフロンティアAIシステムのハイブリッドパネルが4次元のルーブリックを用いて,1000件の回答のそれぞれに対して,教育的品質を評価した。
本稿では,学習者の待ち行列上でのエネルギー単位当たりの教育的価値を定量化する新しい指標であるLpWを紹介する。
現実的な展開では、NF4はFP16(329 J vs. 369 J)よりも低遅延(13.4 s vs. 9.2 s)を実現し、品質差0.19ポイントでLpWが1.33倍のFP16の優位性を得る。
キャッシュの無効な推論 -- オフライン評価で使用されるが、実際のデプロイがない -- の下では、ギャップは7.4倍に広がり、FP16の利点を5倍以上に上回った。
量子化効率はハードウェアに依存し、推論とレジデントに依存しており、低リソース環境における適切なAIチューターのデプロイメントに重要な意味を持つ。
関連論文リスト
- Efficient Fine-Tuning Methods for Portuguese Question Answering: A Comparative Study of PEFT on BERTimbau and Exploratory Evaluation of Generative LLMs [1.5049442691806052]
本研究は,ブラジルポルトガル語のSQuAD v1翻訳であるSQuAD-BRにおける質問回答のためのBERTimbauの体系的評価を提示する。
エンコーダをベースとしたモデルは,ブラジルの抽出ポルトガル語QAに対して,大規模な生成LDMよりも計算コストが大幅に低く,効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-03-22T21:56:05Z) - Evaluating Four FPGA-accelerated Space Use Cases based on Neural Network Algorithms for On-board Inference [0.0]
この研究は、AMD ZCU104ボード上の4つの空間ユースケースにわたるニューラルネットワーク(NN)のFPGAアクセラレーションを評価する。
Vitis AI(AMD DPU)とVitis HLSを使用して推論を実装し、スループットとエネルギを定量化し、デプロイメントに関連するツールチェーンとアーキテクチャ制約を公開する。
論文 参考訳(メタデータ) (2026-03-14T19:32:33Z) - Understanding vision transformer robustness through the lens of out-of-distribution detection [59.72757235382676]
量子化はメモリと推論コストを削減し、性能損失のリスクを負う。
本稿では, 量子化小型可変ビジョントランス (DeiT, DeiT3, ViT) の共通アウト・オブ・ディストリビューション (OOD) データセットにおける挙動について検討する。
論文 参考訳(メタデータ) (2026-02-01T22:00:59Z) - Accelerating Bangla NLP Tasks with Automatic Mixed Precision: Resource-Efficient Training Preserving Model Efficacy [0.0]
モデル性能を犠牲にすることなく、計算効率を向上させる手段として、自動混合精度訓練(AMP)について検討する。
我々は、感情分析、名前付きエンティティ認識、エラー分類、質問応答の4つの標準Bangla NLPタスクでAMPを評価した。
その結果、AMPはトレーニングを44.5%加速し、メモリ消費を17.6%削減し、F-1スコアは全精度ベースラインの99.7%以内を維持した。
論文 参考訳(メタデータ) (2025-11-30T10:34:08Z) - MobileLLM-Pro Technical Report [28.511762884727883]
MobileLLM-Proは、デバイス上でのデプロイメントに最適化された1ビリオンパラメータ言語モデルである。
Gemma 3-1BとLlama 3.2-1Bを11の標準ベンチマークで大幅に上回っている。
最大128,000トークンのコンテキストウィンドウをサポートし、4ビット量子化時の小さなパフォーマンスレグレッションのみを表示する。
論文 参考訳(メタデータ) (2025-11-10T05:28:31Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Small footprint Text-Independent Speaker Verification for Embedded
Systems [7.123796359179192]
本稿では,話者検証のための2段階モデルアーキテクチャのオーダーを共通解より桁違いに小さくする。
Raspberry Pi 3BのようなIoTシステムに典型的な小型デバイスでソリューションを実行する可能性を示し、5秒の発話で200ms未満のレイテンシを持つ。
論文 参考訳(メタデータ) (2020-11-03T13:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。