論文の概要: Bench360: Benchmarking Local LLM Inference from 360°
- arxiv url: http://arxiv.org/abs/2511.16682v1
- Date: Wed, 12 Nov 2025 09:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.21922
- Title: Bench360: Benchmarking Local LLM Inference from 360°
- Title(参考訳): Bench360: 360°からの局所LLM推論のベンチマーク
- Authors: Linus Stuhlmann, Mauricio Fadel Argerich, Jonathan Fürst,
- Abstract要約: ここでは、360からローカル推論をベンチマークするBench360を紹介します。
ユーザーはデータセットと一緒に自分のカスタムタスクを簡単に定義できる。
その後、選択したLLM、推論エンジン、および異なる利用シナリオの量子化レベルを自動的にベンチマークする。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running large language models (LLMs) locally is becoming increasingly common. While the growing availability of small open-source models and inference engines has lowered the entry barrier, users now face an overwhelming number of configuration choices. Identifying an optimal configuration -- balancing functional and non-functional requirements -- requires substantial manual effort. While several benchmarks target LLM inference, they are designed for narrow evaluation goals and not user-focused. They fail to integrate relevant system and task-specific metrics into a unified, easy-to-use benchmark that supports multiple inference engines, usage scenarios, and quantization levels. To address this gap, we present Bench360 -- Benchmarking Local LLM Inference from 360°. Bench360 allows users to easily define their own custom tasks along with datasets and relevant task-specific metrics and then automatically benchmarks selected LLMs, inference engines, and quantization levels across different usage scenarios (single stream, batch & server). Bench360 tracks a wide range of metrics, including (1) system metrics -- such as Computing Performance (e.g., latency, throughput), Resource Usage (e.g., energy per query), and Deployment (e.g., cold start time) -- and (2) task-specific metrics such as ROUGE, F1 score or accuracy. We demonstrate Bench360 on four common LLM tasks -- General Knowledge & Reasoning, QA, Summarization and Text-to-SQL -- across three hardware platforms and four state of the art inference engines. Our results reveal several interesting trade-offs between task performance and system-level efficiency, highlighting the differences in inference engines and models. Most importantly, there is no single best setup for local inference, which strongly motivates the need for a framework such as Bench360.
- Abstract(参考訳): 大規模言語モデル(LLM)をローカルで実行することは、ますます一般的になりつつある。
小さなオープンソースモデルと推論エンジンの可用性が向上し、参入障壁が低くなっている一方で、ユーザは圧倒的な数の設定選択に直面している。
機能要件と非機能要件のバランスをとる、最適な設定を特定するには、かなりの手作業が必要です。
いくつかのベンチマークはLLM推論をターゲットとしているが、ユーザ中心ではなく、狭い評価目標のために設計されている。
関連するシステムとタスク固有のメトリクスを、複数の推論エンジン、使用シナリオ、量子化レベルをサポートする統一的で使いやすいベンチマークに統合することができない。
このギャップに対処するために、我々は、360°からローカルLLM推論をベンチマークするBench360を紹介します。
Bench360では、データセットや関連するタスク固有のメトリクスとともに、独自のカスタムタスクを簡単に定義し、選択したLCM、推論エンジン、さまざまな使用シナリオ(単一ストリーム、バッチ、サーバ)の量子化レベルを自動的にベンチマークすることができる。
Bench360は、(1)コンピューティングパフォーマンス(例えば、レイテンシ、スループット)、リソース使用量(例えば、クエリ毎のエネルギ)、デプロイメント(例えば、コールドスタートタイム)、(2)ROUGE、F1スコア、精度などのタスク固有のメトリクスなど、幅広いメトリクスを追跡している。
我々は3つのハードウェアプラットフォームと4つの最先端推論エンジンで、一般的なLLMタスク(General Knowledge & Reasoning、QA、Summarization、Text-to-SQL)でBench360を実演する。
この結果から,タスク性能とシステムレベルの効率のトレードオフがいくつか明らかとなり,推論エンジンとモデルの違いが明らかになった。
最も重要なことは、ローカル推論に最適なセットアップはひとつもなく、Bench360のようなフレームワークの必要性を強く動機付けている。
関連論文リスト
- PointArena: Probing Multimodal Grounding Through Language-Guided Pointing [79.80132157576978]
ポインティングは、視覚的コンテキスト内で言語を接地するための基本的で直感的なメカニズムとして機能する。
多様な推論シナリオを対象とするマルチモーダル評価のための総合的なプラットフォームであるPointArenaを紹介した。
論文 参考訳(メタデータ) (2025-05-15T06:04:42Z) - Stronger Than You Think: Benchmarking Weak Supervision on Realistic Tasks [19.49705185032905]
弱監督 (WS) はラベル効率の学習において一般的な手法であり、様々なノイズがあるが安価なラベルを用いて自動的にトレーニングデータに注釈を付ける。
広く使われているにもかかわらず、WSとその実践的価値は、そのセットアップに多くのノブがあるため、ベンチマークするのは難しいです。
我々は、WSの実際の利用をより正確に反映するように設計された新しいベンチマークであるBOXWRENCHを紹介します。
論文 参考訳(メタデータ) (2025-01-13T22:29:31Z) - From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
効率的なビジュアルインストラクションファインタニング(EVIT)は、最小の計算オーバーヘッドで下流タスクにマルチモーダル大言語モデル(MLLM)を適用することを目指している。
本稿では,Dual Low-Rank Adaptation (Dual-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - Task Me Anything [72.810309406219]
本稿では,ユーザのニーズに合わせたベンチマークを作成する。
113Kイメージ、10Kビデオ、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、335の関係がある。
750万のイメージ/ビデオ問合せペアを生成することが可能で、知覚能力の評価に重点を置いている。
論文 参考訳(メタデータ) (2024-06-17T17:32:42Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models [26.590755599827993]
大規模言語モデル(LLM)用に設計された総合的なタスク指向のOpsベンチマークであるOpsEvalを提示する。
このベンチマークには、英語と中国語で7184の質問と1736の質問回答(QA)形式が含まれている。
評価の信頼性を確保するため、何十人ものドメインエキスパートを招待して、質問を手動でレビューします。
論文 参考訳(メタデータ) (2023-10-11T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。