論文の概要: Mobile-MMLU: A Mobile Intelligence Language Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2503.20786v1
- Date: Wed, 26 Mar 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:12.326561
- Title: Mobile-MMLU: A Mobile Intelligence Language Understanding Benchmark
- Title(参考訳): Mobile-MMLU: ベンチマークを理解するモバイルインテリジェンス言語
- Authors: Sondos Mahmoud Bsharat, Mukul Ranjan, Aidar Myrzakhan, Jiacheng Liu, Bowei Guo, Shengkun Tang, Zhuang Liu, Yuanzhi Li, Zhiqiang Shen,
- Abstract要約: モバイルインテリジェンスに適した大規模ベンチマークデータセットであるMobile-MMLUを紹介する。
80のモバイル関連分野にわたる16,186の質問で構成され、現実的なモバイルシナリオでLLMのパフォーマンスを評価するように設計されている。
挑戦的なサブセットであるMobile-MMLU-Proは、MMLU-Proと同じようなサイズで高度な評価を提供するが、我々の標準のフルセットよりもはるかに難しい。
- 参考スコア(独自算出の注目度): 45.28023118459497
- License:
- Abstract: Rapid advancements in large language models (LLMs) have increased interest in deploying them on mobile devices for on-device AI applications. Mobile users interact differently with LLMs compared to desktop users, creating unique expectations and data biases. Current benchmark datasets primarily target at server and desktop environments, and there is a notable lack of extensive datasets specifically designed for mobile contexts. Additionally, mobile devices face strict limitations in storage and computing resources, constraining model size and capabilities, thus requiring optimized efficiency and prioritized knowledge. To address these challenges, we introduce Mobile-MMLU, a large-scale benchmark dataset tailored for mobile intelligence. It consists of 16,186 questions across 80 mobile-related fields, designed to evaluate LLM performance in realistic mobile scenarios. A challenging subset, Mobile-MMLU-Pro, provides advanced evaluation similar in size to MMLU-Pro but significantly more difficult than our standard full set. Both benchmarks use multiple-choice, order-invariant questions focused on practical mobile interactions, such as recipe suggestions, travel planning, and essential daily tasks. The dataset emphasizes critical mobile-specific metrics like inference latency, energy consumption, memory usage, and response quality, offering comprehensive insights into model performance under mobile constraints. Moreover, it prioritizes privacy and adaptability, assessing models' ability to perform on-device processing, maintain user privacy, and adapt to personalized usage patterns. Mobile-MMLU family offers a standardized framework for developing and comparing mobile-optimized LLMs, enabling advancements in productivity and decision-making within mobile computing environments. Our code and data are available at: https://github.com/VILA-Lab/Mobile-MMLU.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、デバイス上のAIアプリケーションのためのモバイルデバイスへのデプロイへの関心を高めている。
モバイルユーザはデスクトップユーザに比べてLDMと異なるインタラクションを行い、ユニークな期待とデータバイアスを生み出します。
現在のベンチマークデータセットは主にサーバとデスクトップ環境を対象としており、モバイルコンテキスト用に特別に設計された広範なデータセットが不足している。
さらに、モバイルデバイスは、ストレージとコンピューティングリソースの厳しい制限に直面し、モデルのサイズと能力を制限し、最適化された効率性と優先順位付けされた知識を必要とする。
これらの課題に対処するため,モバイルインテリジェンスに適した大規模ベンチマークデータセットであるMobile-MMLUを紹介した。
80のモバイル関連分野にわたる16,186の質問で構成され、現実的なモバイルシナリオでLLMのパフォーマンスを評価するように設計されている。
挑戦的なサブセットであるMobile-MMLU-Proは、MMLU-Proと同じようなサイズで高度な評価を提供するが、我々の標準のフルセットよりもはるかに難しい。
どちらのベンチマークも、レシピの提案、旅行計画、重要な日々のタスクなど、実用的なモバイルインタラクションに焦点を当てた、複数選択、順序不変の質問を使用する。
このデータセットは、推論レイテンシ、エネルギー消費、メモリ使用量、応答品質といった、モバイル固有の重要な指標を強調し、モバイル制約下でのモデルパフォーマンスに関する包括的な洞察を提供する。
さらに、プライバシと適応性を優先し、オンデバイス処理を実行し、ユーザのプライバシを維持し、パーソナライズされた使用パターンに適応するモデルの能力を評価する。
Mobile-MMLUファミリは、モバイル最適化LDMの開発と比較のための標準化されたフレームワークを提供し、モバイルコンピューティング環境における生産性と意思決定の進歩を可能にする。
私たちのコードとデータは、https://github.com/VILA-Lab/Mobile-MMLU.comで公開されています。
関連論文リスト
- Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Smooth Handovers via Smoothed Online Learning [48.953313950521746]
まず、欧州の商用モバイルネットワークオペレータ(MNO)から4000万人以上のユーザを対象に、HOに対する重要な特徴とパフォーマンスへの影響を理解し、明らかにするために、広範なデータセットを分析した。
本研究は, HO故障/遅延と無線セルとエンドユーザーデバイスの特徴の相関関係を明らかにする。
本稿では,HO最適化にデバイスとセルの機能を組み込むことで,既存のアプローチを拡張したスムーズで高精度なHOのための現実的なシステムモデルを提案する。
論文 参考訳(メタデータ) (2025-01-14T13:16:33Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms [11.87161637895978]
ユーザがモバイルデバイス上で大きな言語モデルを評価することができる軽量でオールインワンな自動ベンチマークフレームワークを紹介します。
ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-10-05T03:37:07Z) - Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。
ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。
急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文 参考訳(メタデータ) (2024-10-04T17:14:59Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - MLPerf Mobile Inference Benchmark [11.883357894242668]
erferf Mobileは、業界メンバーと学術研究者によって開発された、業界標準のオープンソースモバイルベンチマークである。
まず,コンピュータビジョンと自然言語処理のための"out-of-the-box"推論性能ベンチマークをモバイルデバイス上で提供するアプリを開発した。
論文 参考訳(メタデータ) (2020-12-03T23:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。