論文の概要: Gemma 4, Phi-4, and Qwen3: Accuracy-Efficiency Tradeoffs in Dense and MoE Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2604.07035v1
- Date: Wed, 08 Apr 2026 12:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.534406
- Title: Gemma 4, Phi-4, and Qwen3: Accuracy-Efficiency Tradeoffs in Dense and MoE Reasoning Language Models
- Title(参考訳): Gemma 4, Phi-4, Qwen3:DenseおよびMoE推論言語モデルにおける精度効率トレードオフ
- Authors: Md Motaleb Hossen Manik, Ge Wang,
- Abstract要約: Mixture-of-experts (MoE)言語モデルは、高密度モデルよりも優れた品質と効率のトレードオフをもたらすことがしばしば期待されている。
そこで本研究では,高密度および高密度なMoE設計にまたがる7つの推論指向命令調整モデルのベンチマークを示す。
- 参考スコア(独自算出の注目度): 6.396911723204044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-experts (MoE) language models are often expected to offer better quality-efficiency tradeoffs than dense models because only a subset of parameters is activated per token, but the practical value of that advantage depends on end-to-end behavior under realistic inference constraints. We present a controlled empirical benchmark of seven recent reasoning-oriented instruction-tuned models spanning dense and MoE designs, namely Gemma-4-E2B, Gemma-4-E4B, Gemma-4-26B-A4B, Phi-4-mini-reasoning, Phi-4-reasoning, Qwen3-8B, and Qwen3-30B-A3B, evaluated on four benchmarks -- ARC-Challenge, GSM8K, Math Level 1-3, and TruthfulQA MC1 -- under three prompting strategies: zero-shot, chain-of-thought, and few-shot chain-of-thought. The study covers 8,400 total model-dataset-prompt evaluations and records accuracy, latency, peak GPU memory usage (VRAM), and an approximate floating-point operations (FLOPs)-per-token proxy. Across the weighted multi-task summary, Gemma-4-E4B with few-shot chain-of-thought achieved the best overall result, reaching weighted accuracy 0.675 with mean VRAM 14.9 GB, while Gemma-4-26B-A4B was close in accuracy at 0.663 but substantially more memory intensive at 48.1 GB. At the task level, Gemma models dominated ARC and Math, Phi models were strongest on TruthfulQA, and GSM8K showed the largest prompt sensitivity, including a sharp drop for Phi-4-reasoning from 0.67 under chain-of-thought to 0.11 under few-shot chain-of-thought. These results show that sparse activation alone does not guarantee the best practical operating point: observed accuracy-efficiency tradeoffs depend jointly on architecture, prompting protocol, and task composition. We release a reproducible benchmark pipeline, aggregated results, and paired statistical analyses to support deployment-oriented evaluation of reasoning LLMs under real resource constraints.
- Abstract(参考訳): Mixture-of-experts (MoE)言語モデルは、トークン毎にパラメータのサブセットだけをアクティブにするため、高密度モデルよりも優れた品質効率トレードオフを提供すると予想されることが多いが、その利点の実践的価値は、現実的な推論制約の下でのエンドツーエンドの振る舞いに依存している。
ゼロショット,チェーン・オブ・シント,および少数ショット・チェーン・オブ・シントという3つの戦略の下で, ARC-Challenge, GSM8K, Math Level 1-3, TruthfulQA MC1 の4つのベンチマークで評価した,近年の高密度・高密度・高密度・高密度・高密度な7つの推論指向型モデル,すなわち Gemma-4-E2B, Gemma-4-26B-A4B, Phi-4-mini-reasoning, Phi-4-reasoning, Qwen3-8B, Qwen3-30B-A3B を比較検討した。
この研究は8,400のモデルデータセット・プロンプト評価と、精度、レイテンシ、ピークGPUメモリ使用量(VRAM)、および近似浮動小数点演算(FLOP)/トークンプロキシをカバーしている。
重み付けされたマルチタスクの要約の中で、数発のチェーンを持つGemma-4-E4Bは、平均的なVRAM 14.9 GBの重み付き精度0.675に達し、Gemma-4-26B-A4Bは0.663の精度で、メモリは48.1 GBにほぼ集約された。
タスクレベルでは、GemmaモデルはARCとMathを支配し、PhiモデルはTruthfulQAで最強であり、GSM8KはPhi-4-reasoningを0.67から0.11に急降下させた。
これらの結果から,スパースアクティベーションだけでは最高の運用ポイントが保証されないことが明らかとなった。 観測精度・効率トレードオフは, アーキテクチャ, プロンプトプロトコル, タスク構成に大きく依存する。
実資源制約下でのLCMの展開指向評価を支援するために,再現性のあるベンチマークパイプライン,集計結果,およびペア統計解析を行った。
関連論文リスト
- ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - Chain of Simulation: A Dual-Mode Reasoning Framework for Large Language Models with Dynamic Problem Routing [0.0]
Chain of Simulation(CoS)は、動的に問題を特別な推論戦略にルーティングする新しいデュアルモード推論フレームワークである。
CoSは、数学的問題に対する自己整合性を伴う計算フロー、空間的推論のための表現を伴う記号的状態追跡、マルチホップ推論のためのハイブリッド事実抽出という3つの異なる推論モードを採用している。
論文 参考訳(メタデータ) (2026-02-02T21:44:01Z) - Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,空間的タスクにおけるいくつかの高度なモデルの性能を探索し,比較するために,新しいマルチタスク空間評価データセットを提案する。
データセットには、空間的理解や単純なルート計画など、12の異なるタスクタイプが含まれており、それぞれが検証され、正確な答えを持っている。
論文 参考訳(メタデータ) (2024-08-26T17:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。