論文の概要: GPT-OSS-20B: A Comprehensive Deployment-Centric Analysis of OpenAI's Open-Weight Mixture of Experts Model
- arxiv url: http://arxiv.org/abs/2508.16700v2
- Date: Sun, 31 Aug 2025 03:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.675004
- Title: GPT-OSS-20B: A Comprehensive Deployment-Centric Analysis of OpenAI's Open-Weight Mixture of Experts Model
- Title(参考訳): GPT-OSS-20B:OpenAIのオープンウェイト混合専門家モデルの総合展開中心分析
- Authors: Deepak Kumar, Divakar Yadav, Yash Patel,
- Abstract要約: GPT-OSS-20B (Mixture-of-Experts; 20.9B total, approx.3.61B active) を高密度ベースラインQwen3-32BとYi-34Bに対して評価した。
パラメータの17.3%がアクティブ(3.61Bは20.9B)であり、GPT-OSS-20Bはデコードスループットが31.8%高く、1000個のトークン当たりのエネルギーが25.8%低い。
- 参考スコア(独自算出の注目度): 7.2566101637741545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a single-GPU (H100, bf16) evaluation of GPT-OSS-20B (Mixture-of-Experts; 20.9B total, approx. 3.61B active) against dense baselines Qwen3-32B and Yi-34B across multiple dimensions. We measure true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM with past key values (PKV) held, and energy via a consistent nvidia-smi-based sampler. At a 2048-token context with 64-token decode, GPT-OSS-20B delivers higher decode throughput and tokens per Joule than dense baselines Qwen3-32B and Yi-34B, while substantially reducing peak VRAM and energy per 1000 generated tokens; its TTFT is higher due to MoE routing overhead. With only 17.3% of parameters active (3.61B of 20.9B), GPT-OSS-20B provides about 31.8% higher decode throughput and 25.8% lower energy per 1000 generated tokens than Qwen3-32B at 2048/64, while using 31.7% less peak VRAM. Normalized by active parameters, GPT-OSS-20B shows markedly stronger per-active-parameter efficiency (APE), underscoring MoE's deployment advantages. We do not evaluate accuracy; this is a deployment-focused study. We release code and consolidated results to enable replication and extension.
- Abstract(参考訳): GPT-OSS-20B (Mixture-of-Experts; 20.9B total, approx. 3.61B active) の高密度ベースライン Qwen3-32B と Yi-34B に対するシングルGPU (H100, bf16) の評価を行った。
我々は,真のTTFT,フルデコードスループット(TPOT),エンドツーエンドのレイテンシパーセンタイル,過去のキー値(PKV)を持つピークVRAM,一貫したnvidia-smi-based samplerによるエネルギーを測定する。
GPT-OSS-20Bは64-tokenデコードで2048のコンテキストで、密度の高いベースラインであるQwen3-32BやYi-34Bよりも高いデコードスループットとトークンを提供すると同時に、1000生成トークン当たりのピークVRAMとエネルギを大幅に削減する。
パラメータの17.3%がアクティブ(3.61Bは20.9B)であり、GPT-OSS-20BはQwen3-32Bよりも約31.8%高いデコードスループットと、Qwen3-32Bよりも25.8%低いエネルギーを2048/64で提供し、ピークVRAMは31.7%少ない。
アクティブパラメータによって正規化され、GPT-OSS-20Bは、MoEのデプロイメントの利点を裏付ける、非常に強力なパラメトリック効率(APE)を示す。
私たちは正確さを評価していません。
レプリケーションと拡張を可能にするために、コードと統合された結果をリリースします。
関連論文リスト
- Energy-Efficient Deep Learning for Traffic Classification on Microcontrollers [1.3124513975412255]
本稿では,資源限定マイクロコントローラ上でのエネルギー効率の高いトラフィック分類のための実用的なディープラーニング(DL)手法を提案する。
ISCX VPN-Non-VPNデータセット上で96.59%の精度を実現するハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)により最適化された軽量な1D-CNNを開発する。
2つのマイクロコントローラにおける実世界の推論性能を評価する。
論文 参考訳(メタデータ) (2025-06-12T16:10:22Z) - Energy-Efficient NTT Sampler for Kyber Benchmarked on FPGA [0.8049701904919515]
Kyberは、NIST Post-Quantum Cryptography (PQC)プロジェクトによって標準化のために選択された格子ベースの鍵カプセル化機構である。
キーバーの鍵生成過程の重要な構成要素は、環 Rq 上の一様分布から行列要素のサンプリングである。
このサンプリングに対する既存のアプローチは、リジェクションサンプリングに依存している。
本稿では,SHAKE-128からRqの要素を生成するために必要な平均ビット数を実質的に生成するModified SampleNTTを提案する。
論文 参考訳(メタデータ) (2025-05-03T10:54:01Z) - TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs [5.889337608109388]
TeLLMeは、低消費電力FPGAのための最初の3次LLMアクセラレータである。
1.58ビットの重みと8ビットのアクティベーションを使用するプリフィルと自動回帰デコードの両方をサポートする。
7Wの電力予算の下では、TeLLMeは最大9トークン/秒のスループットを1,024トークンのコンテキストで提供する。
論文 参考訳(メタデータ) (2025-04-22T21:00:58Z) - Fast Inference with Kronecker-Sparse Matrices [4.387337528923525]
KS行列乗算のための既存のGPUカーネルは、高いデータ移動コストに悩まされている。
本稿では、これらのオーバーヘッドを解消する、融合した出力定常GPUカーネルを提案する。
FP32では,VT-S/16では最大22%,GPT-2媒体では16%のレイテンシ低下を示した。
論文 参考訳(メタデータ) (2024-05-23T19:36:10Z) - DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [118.06260386652778]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。
DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。
DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文 参考訳(メタデータ) (2024-05-07T15:56:43Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up
Knowledge Distillation [82.3956677850676]
事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。
サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
論文 参考訳(メタデータ) (2021-09-15T11:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。