論文の概要: SmartBench: Is Your LLM Truly a Good Chinese Smartphone Assistant?
- arxiv url: http://arxiv.org/abs/2503.06029v1
- Date: Sat, 08 Mar 2025 03:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:04.805546
- Title: SmartBench: Is Your LLM Truly a Good Chinese Smartphone Assistant?
- Title(参考訳): SmartBench:あなたのLLMは本当に中国のスマートフォンアシスタント?
- Authors: Xudong Lu, Haohao Gao, Renshou Wu, Shuai Ren, Xiaoxin Chen, Hongsheng Li, Fangyuan Li,
- Abstract要約: 中国のモバイル環境でのデバイス上でのLCMの性能を評価するために設計された最初のベンチマークであるSmartBenchを紹介する。
我々は,日常的なモバイルインタラクションを反映した50対から200対の質問応答ペアからなる高品質なデータセットを構築した。
我々の貢献は、中国におけるオンデバイスLCMの評価のための標準化されたフレームワークを提供し、この重要な領域におけるさらなる開発と最適化を促進する。
- 参考スコア(独自算出の注目度): 26.862929589898798
- License:
- Abstract: Large Language Models (LLMs) have become integral to daily life, especially advancing as intelligent assistants through on-device deployment on smartphones. However, existing LLM evaluation benchmarks predominantly focus on objective tasks like mathematics and coding in English, which do not necessarily reflect the practical use cases of on-device LLMs in real-world mobile scenarios, especially for Chinese users. To address these gaps, we introduce SmartBench, the first benchmark designed to evaluate the capabilities of on-device LLMs in Chinese mobile contexts. We analyze functionalities provided by representative smartphone manufacturers and divide them into five categories: text summarization, text Q\&A, information extraction, content creation, and notification management, further detailed into 20 specific tasks. For each task, we construct high-quality datasets comprising 50 to 200 question-answer pairs that reflect everyday mobile interactions, and we develop automated evaluation criteria tailored for these tasks. We conduct comprehensive evaluations of on-device LLMs and MLLMs using SmartBench and also assess their performance after quantized deployment on real smartphone NPUs. Our contributions provide a standardized framework for evaluating on-device LLMs in Chinese, promoting further development and optimization in this critical area. Code and data will be available at https://github.com/Lucky-Lance/SmartBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にスマートフォン上でのデバイス展開を通じて、インテリジェントアシスタントとして進化し、日常生活に不可欠なものとなっている。
しかし,既存のLCM評価ベンチマークでは,特に中国人ユーザを対象とした実世界のモバイルシナリオにおけるデバイス上でのLCMの実践的利用を必ずしも反映していない,数学や英語によるコーディングといった客観的なタスクに主に焦点が当てられている。
これらのギャップに対処するため、中国モバイル環境でのデバイス上でのLCMの性能を評価するために設計された最初のベンチマークであるSmartBenchを紹介した。
我々は,代表的スマートフォンメーカーが提供する機能を分析し,テキスト要約,テキストQ\&A,情報抽出,コンテンツ生成,通知管理の5つのカテゴリに分け,さらに20のタスクに詳細を分類する。
各タスクに対して,日常的なモバイルインタラクションを反映した50対から200対の質問応答ペアからなる高品質なデータセットを構築し,これらのタスクに適した自動評価基準を開発する。
SmartBench を用いたデバイス上での LLM と MLLM の総合評価を行い,実際のスマートフォン NPU 上での定量化後の性能評価を行った。
我々の貢献は、中国におけるオンデバイスLCMの評価のための標準化されたフレームワークを提供し、この重要な領域におけるさらなる開発と最適化を促進する。
コードとデータはhttps://github.com/Lucky-Lance/SmartBench.comで入手できる。
関連論文リスト
- EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - SlimLM: An Efficient Small Language Model for On-Device Document Assistance [60.971107009492606]
SlimLMはモバイル端末上での文書支援タスクに最適化された一連のSLMである。
SlimLMはSlimPajama-627Bで事前訓練され、DocAssistで微調整されている。
我々はSlimLMを既存のSLMと比較し、同等または優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-15T04:44:34Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
我々は、(M)LLMベースのエージェントを評価するために設計された総合的なSmartPhone Agent BenchmarkであるSPA-B ENCHを提案する。
SPA-B ENCH は,(1) 日常のルーチンで一般的に使用される機能に着目した,英語と中国語の両方のサードパーティアプリを対象とした多様なタスクセット,(2) Android デバイスとのリアルタイムエージェントインタラクションを可能にするプラグイン・アンド・プレイフレームワーク,(3) 複数の次元でエージェントパフォーマンスを自動的に評価する新たな評価パイプライン,の3つの重要な貢献を提供する。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。
ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。
急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文 参考訳(メタデータ) (2024-10-04T17:14:59Z) - Small Language Models: Survey, Measurements, and Insights [21.211248351779467]
SLM研究は、マシンインテリジェンスをより使いやすく、手頃な価格で、日々の作業に効率的にすることを目的としている。
我々は70の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
論文 参考訳(メタデータ) (2024-09-24T06:36:56Z) - LLMSecCode: Evaluating Large Language Models for Secure Coding [0.24999074238880484]
本研究の目的は、セキュアコーディング(SC)を促進するのに適した大規模言語モデル(LLM)の選択プロセスを改善することである。
SC機能を客観的に評価するために設計されたオープンソースの評価フレームワークであるLLMSecCodeを紹介する。
論文 参考訳(メタデータ) (2024-08-28T19:07:08Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - NYU CTF Bench: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security [28.125179435861316]
大規模言語モデル(LLM)は、さまざまなドメインにデプロイされているが、Capture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。
我々は、スケーラブルでオープンソースのベンチマークデータベースを作成することで、CTFの課題を解決する上で、LCMを評価する新しい手法を開発した。
このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。
論文 参考訳(メタデータ) (2024-06-08T22:21:42Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。