論文の概要: Benchmarking Local Language Models for Social Robots using Edge Devices
- arxiv url: http://arxiv.org/abs/2605.03111v1
- Date: Mon, 04 May 2026 19:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.628816
- Title: Benchmarking Local Language Models for Social Robots using Edge Devices
- Title(参考訳): エッジデバイスを用いた社会ロボットのローカル言語モデルのベンチマーク
- Authors: Dorian Lamouille, Matevž B. Zorec, Farnaz Baksh, Karl Kruusamäe,
- Abstract要約: 本稿では,エッジハードウェア上でのローカルデプロイメントのために,25のオープンソース言語モデルをベンチマークする。
我々は,推論効率,一般知識,教育効果の3つの次元にまたがって各モデルを評価した。
本稿では,ロボット学習コンパニオンのための3層ローカル推論アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social-educational robots designed for socially interactive pedagogical support, such as the Robot Study Companion (RSC), rely on responsive, privacy-preserving interaction despite severely limited compute. However, there is a gap in systematic benchmarking of language models for edge computing in pedagogical applications. This paper benchmarks 25 open-source language models for local deployment on edge hardware. We evaluate each model across three dimensions: inference efficiency (tokens per second, energy consumption), general knowledge (a six-category MMLU subset), and teaching effectiveness (LLM-rated pedagogical quality), validated against five independent human raters using the Raspberry Pi(RPi)4 as the primary platform, with additional comparisons on the RPi5 and a laptop GPU. Results reveal pronounced trade-offs: throughput and energy efficiency vary by over an order of magnitude across models, MMLU accuracy ranges from near-random to 57.2%, and teaching effectiveness does not correlate monotonically with either metric. Among the evaluated models, Granite4 Tiny Hybrid (7B) achieves a strong overall balance, reaching 2.5 tokens per second, 0.90 tokens per joule, and 54.6% MMLU accuracy; high MMLU accuracy does not appear necessary for strong teaching scores. Human validation on four representative models preserved the automated rank ordering (Pearson r = 0.967, n = 4). Based on these findings, we propose a three-tier local inference architecture for the RSC that balances responsiveness and accuracy on resource-constrained hardware.
- Abstract(参考訳): ロボット学習コンパニオン(RSC)のような、社会的にインタラクティブな教育支援のために設計された社会教育ロボットは、非常に限られた計算にもかかわらず、応答性、プライバシー保護の相互作用に依存している。
しかし、エッジコンピューティングにおける言語モデルの体系的なベンチマークには、ギャップがある。
本稿では,エッジハードウェア上でのローカルデプロイメントのために,25のオープンソース言語モデルをベンチマークする。
推論効率(1秒あたりのトークン、エネルギー消費)、一般知識(6カテゴリのMMLUサブセット)、指導効率(LLM評価教育品質)、Raspberry Pi(RPi)4を主要プラットフォームとして用いた5つの独立した人間ラッカーに対する検証、RPi5とラップトップGPUの比較を行った。
スループットとエネルギー効率はモデル全体で桁違いに変化し、MMLUの精度はほぼランダムから57.2%まで変化し、教育効果はどちらの指標とも単調に相関しない。
評価されたモデルの中で、Granite4 Tiny Hybrid (7B) は、強い全体的なバランスを達成し、1秒あたり2.5トークン、1ジュールあたり0.90トークン、54.6%のMMLU精度を達成した。
4つの代表モデルの人間による検証は、自動階数順序(ピアソン r = 0.967, n = 4)を保存した。
これらの結果に基づき,資源制約ハードウェア上での応答性と精度のバランスをとることを目的とした,RCCのための3層ローカル推論アーキテクチャを提案する。
関連論文リスト
- RoboSolver: A Multi-Agent Large Language Model Framework for Solving Robotic Arm Problems [0.0]
本研究では,ロボット工学に特化されたLLMとVLMをベースとした,インテリジェントなマルチエージェントフレームワークを提案する。
開発したフレームワークはテキスト入力と視覚入力の両方を受け入れる。
前方および逆運動学を自動的に実行し、キーポイントの速度と加速度を計算し、ロボットの3Dシミュレーションを生成する。
論文 参考訳(メタデータ) (2026-02-16T03:49:17Z) - A systematic comparison of Large Language Models for automated assignment assessment in programming education: Exploring the importance of architecture and vendor [0.0]
本研究は,現代大規模言語モデル (LLM) のプログラム代入の自動段階付けにおいて,大規模・横比較を行った最初の事例である。
モデル間でのグルーピングパターンの一貫性とクラスタリングについて,グルーピングの分布,平均スコアと変動率の違いから分析した。
すべてのモデルでは、クラス内相関係数によって測定された内部一致度が高く、モデルコンセンサスは人間教師の学級との適度な一致しか示さなかった。
論文 参考訳(メタデータ) (2025-09-30T16:29:35Z) - MiniCPM4: Ultra-Efficient LLMs on End Devices [126.22958722174583]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results [55.33807002543901]
我々は,XRデバイス上で動作する大規模言語モデル(LLM)をベンチマークするための総合評価フレームワークであるAIvaluateXRを提案する。
我々はMagic Leap 2、Meta Quest 3、Vivo X100s Pro、Apple Vision Proという4つのXRプラットフォームに17個の選択されたLSMをデプロイし、広範囲な評価を行います。
本稿では,3次元最適性理論に基づく統一評価手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T20:55:48Z) - λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。
私たちのベンチマークには、シミュレーションと実世界の設定において、現実性と多様性を提供する、571人の人間によるデモが含まれています。
予備訓練を受けた場合でも,学習方法は成功率を低く抑えるが,ニューロシンボリックな手法では性能が著しく向上し,データ量も少なくなる。
論文 参考訳(メタデータ) (2024-11-28T19:31:50Z) - Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments [4.541309099803903]
本研究では,超微調整大言語モデル(LLM)の知識蒸留(KD)手法を提案する。
リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文 参考訳(メタデータ) (2023-12-26T01:24:25Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Utilizing Ensemble Learning for Performance and Power Modeling and
Improvement of Parallel Cancer Deep Learning CANDLE Benchmarks [0.0]
本稿では,アンサンブル学習を用いて,線形,非線形,木/木に基づく機械学習手法を組み合わせる。
2つの並列癌ディープラーニングCANDLEベンチマーク(NT3とP1B2)のために収集したデータセットを使用する。
P1B2は最大61.15%,P1B2は最大62.58%,P1B2は最大55.81%,NT3は最大52.60%の省エネルギーを実現した。
論文 参考訳(メタデータ) (2020-11-12T21:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。