Fugu-MT 論文翻訳(概要): SmartBench: Is Your LLM Truly a Good Chinese Smartphone Assistant?

論文の概要: SmartBench: Is Your LLM Truly a Good Chinese Smartphone Assistant?

arxiv url: http://arxiv.org/abs/2503.06029v1
Date: Sat, 08 Mar 2025 03:02:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.124823
Title: SmartBench: Is Your LLM Truly a Good Chinese Smartphone Assistant?
Title（参考訳）: SmartBench:あなたのLLMは本当に中国のスマートフォンアシスタント?
Authors: Xudong Lu, Haohao Gao, Renshou Wu, Shuai Ren, Xiaoxin Chen, Hongsheng Li, Fangyuan Li,
Abstract要約: 中国のモバイル環境でのデバイス上でのLCMの性能を評価するために設計された最初のベンチマークであるSmartBenchを紹介する。我々は,日常的なモバイルインタラクションを反映した50対から200対の質問応答ペアからなる高品質なデータセットを構築した。我々の貢献は、中国におけるオンデバイスLCMの評価のための標準化されたフレームワークを提供し、この重要な領域におけるさらなる開発と最適化を促進する。
参考スコア（独自算出の注目度）: 26.862929589898798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have become integral to daily life, especially advancing as intelligent assistants through on-device deployment on smartphones. However, existing LLM evaluation benchmarks predominantly focus on objective tasks like mathematics and coding in English, which do not necessarily reflect the practical use cases of on-device LLMs in real-world mobile scenarios, especially for Chinese users. To address these gaps, we introduce SmartBench, the first benchmark designed to evaluate the capabilities of on-device LLMs in Chinese mobile contexts. We analyze functionalities provided by representative smartphone manufacturers and divide them into five categories: text summarization, text Q\&A, information extraction, content creation, and notification management, further detailed into 20 specific tasks. For each task, we construct high-quality datasets comprising 50 to 200 question-answer pairs that reflect everyday mobile interactions, and we develop automated evaluation criteria tailored for these tasks. We conduct comprehensive evaluations of on-device LLMs and MLLMs using SmartBench and also assess their performance after quantized deployment on real smartphone NPUs. Our contributions provide a standardized framework for evaluating on-device LLMs in Chinese, promoting further development and optimization in this critical area. Code and data will be available at https://github.com/Lucky-Lance/SmartBench.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特にスマートフォン上でのデバイス展開を通じて、インテリジェントアシスタントとして進化し、日常生活に不可欠なものとなっている。しかし,既存のLCM評価ベンチマークでは,特に中国人ユーザを対象とした実世界のモバイルシナリオにおけるデバイス上でのLCMの実践的利用を必ずしも反映していない,数学や英語によるコーディングといった客観的なタスクに主に焦点が当てられている。これらのギャップに対処するため、中国モバイル環境でのデバイス上でのLCMの性能を評価するために設計された最初のベンチマークであるSmartBenchを紹介した。我々は,代表的スマートフォンメーカーが提供する機能を分析し,テキスト要約,テキストQ\&A,情報抽出,コンテンツ生成,通知管理の5つのカテゴリに分け,さらに20のタスクに詳細を分類する。各タスクに対して,日常的なモバイルインタラクションを反映した50対から200対の質問応答ペアからなる高品質なデータセットを構築し,これらのタスクに適した自動評価基準を開発する。 SmartBench を用いたデバイス上での LLM と MLLM の総合評価を行い,実際のスマートフォン NPU 上での定量化後の性能評価を行った。我々の貢献は、中国におけるオンデバイスLCMの評価のための標準化されたフレームワークを提供し、この重要な領域におけるさらなる開発と最適化を促進する。コードとデータはhttps://github.com/Lucky-Lance/SmartBench.comで入手できる。

関連論文リスト

DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering [7.264718073839472]
大規模言語モデル(LLM)エージェントは、現実世界の問題を解決する大きな可能性を示し、業界におけるタスク自動化のソリューションになることを約束しています。技術図面修正の文脈におけるLLMエージェントの総合評価のためのDrafterBenchを提案する。 DrafterBenchは、AIエージェントが複雑な長文の命令を解釈する習熟度を厳格にテストするオープンソースのベンチマークである。
論文参考訳（メタデータ） (2025-07-15T17:56:04Z)
UniToMBench: Integrating Perspective-Taking to Improve Theory of Mind in LLMs [1.4304078520604593]
心の理論(ToM)は、大きな言語モデル(LLM)にとって難しい領域である。本稿では,SimToMとTOMBENCHの強みを統合する統一ベンチマークUniToMBenchを紹介する。
論文参考訳（メタデータ） (2025-06-11T06:55:40Z)
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant [16.006675944380078]
Auto-SLURPは、インテリジェントパーソナルアシスタントのコンテキストにおけるLLMベースのマルチエージェントフレームワークの評価を目的としたベンチマークデータセットである。 Auto-SLURPは、データを緩和し、シミュレートされたサーバと外部サービスを統合することで、元のSLURPデータセットを拡張している。我々の実験は、Auto-SLURPが現在の最先端フレームワークに重大な課題をもたらすことを示した。
論文参考訳（メタデータ） (2025-04-25T14:17:47Z)
Mobile-MMLU: A Mobile Intelligence Language Understanding Benchmark [45.28023118459497]
モバイルインテリジェンスに適した大規模ベンチマークデータセットであるMobile-MMLUを紹介する。 80のモバイル関連分野にわたる16,186の質問で構成され、現実的なモバイルシナリオでLLMのパフォーマンスを評価するように設計されている。挑戦的なサブセットであるMobile-MMLU-Proは、MMLU-Proと同じようなサイズで高度な評価を提供するが、我々の標準のフルセットよりもはるかに難しい。
論文参考訳（メタデータ） (2025-03-26T17:59:56Z)
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文参考訳（メタデータ） (2025-03-18T17:51:34Z)
LLMs in Mobile Apps: Practices, Challenges, and Opportunities [4.104646810514711]
AI技術の統合は、ソフトウェア開発でますます人気が高まっている。大規模言語モデル(LLM)と生成AIの台頭により、開発者は、クローズドソースプロバイダから豊富な高品質のオープンソースモデルとAPIにアクセスできるようになる。
論文参考訳（メタデータ） (2025-02-21T19:53:43Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。 MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
我々は、(M)LLMベースのエージェントを評価するために設計された総合的なSmartPhone Agent BenchmarkであるSPA-B ENCHを提案する。 SPA-B ENCH は,(1) 日常のルーチンで一般的に使用される機能に着目した,英語と中国語の両方のサードパーティアプリを対象とした多様なタスクセット,(2) Android デバイスとのリアルタイムエージェントインタラクションを可能にするプラグイン・アンド・プレイフレームワーク,(3) 複数の次元でエージェントパフォーマンスを自動的に評価する新たな評価パイプライン,の3つの重要な貢献を提供する。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文参考訳（メタデータ） (2024-10-04T17:14:59Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。 MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文参考訳（メタデータ） (2024-06-12T22:58:12Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models [26.590755599827993]
大規模言語モデル(LLM)用に設計された総合的なタスク指向のOpsベンチマークであるOpsEvalを提示する。このベンチマークには、英語と中国語で7184の質問と1736の質問回答(QA)形式が含まれている。評価の信頼性を確保するため、何十人ものドメインエキスパートを招待して、質問を手動でレビューします。
論文参考訳（メタデータ） (2023-10-11T16:33:29Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。