論文の概要: Extending Puzzle for Mixture-of-Experts Reasoning Models with Application to GPT-OSS Acceleration
- arxiv url: http://arxiv.org/abs/2602.11937v1
- Date: Thu, 12 Feb 2026 13:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.83625
- Title: Extending Puzzle for Mixture-of-Experts Reasoning Models with Application to GPT-OSS Acceleration
- Title(参考訳): GPT-OSSアクセラレーションに応用したMixture-of-Experts Reasoningモデルのための拡張ノズル
- Authors: Akhiad Bercovich, Nir Ailon, Vladimir Anisimov, Tomer Asida, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Roi Koren, Itay Levy, Zach Moshe, Pavlo Molchanov, Najeeb Nabwani, Mostofa Patwari, Omri Puny, Tomer Ronen, Itamar Schen, Elad Segal, Ido Shahaf, Oren Tropp, Ran Zilberstein, Ran El-Yaniv,
- Abstract要約: 推論に焦点をあてたLLMは、より長い推論トレースを生成することで応答品質を向上させるが、追加のトークンはサービスコストを劇的に向上させる。
トレーニング後のニューラルネットワーク検索(NAS)フレームワークであるPuzzleを拡張して,gpt-oss-puzzle-88Bを生成する。
提案手法は,不均一なMoEエキスパートプルーニング,ウィンドウアテンションによるフルコンテキストアテンションの選択的置き換え,キャリブレーションスケールによるFP8 KV-cache量子化,トレーニング後の強化学習を併用して精度を回復する。
- 参考スコア(独自算出の注目度): 17.929617807312635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-focused LLMs improve answer quality by generating longer reasoning traces, but the additional tokens dramatically increase serving cost, motivating inference optimization. We extend and apply Puzzle, a post-training neural architecture search (NAS) framework, to gpt-oss-120B to produce gpt-oss-puzzle-88B, a deployment-optimized derivative. Our approach combines heterogeneous MoE expert pruning, selective replacement of full-context attention with window attention, FP8 KV-cache quantization with calibrated scales, and post-training reinforcement learning to recover accuracy, while maintaining low generation length. In terms of per-token speeds, on an 8XH100 node we achieve 1.63X and 1.22X throughput speedups in long-context and short-context settings, respectively. gpt-oss-puzzle-88B also delivers throughput speedups of 2.82X on a single NVIDIA H100 GPU. However, because token counts can change with reasoning effort and model variants, per-token throughput (tok/s) and latency (ms/token) do not necessarily lead to end-to-end speedups: a 2X throughput gain is erased if traces grow 2X. Conversely, throughput gains can be spent on more reasoning tokens to improve accuracy; we therefore advocate request-level efficiency metrics that normalize throughput by tokens generated and trace an accuracy--speed frontier across reasoning efforts. We show that gpt-oss-puzzle-88B improves over gpt-oss-120B along the entire frontier, delivering up to 1.29X higher request-level efficiency. Across various benchmarks, gpt-oss-puzzle-88B matches or slightly exceeds the parent on suite-average accuracy across reasoning efforts, with retention ranging from 100.8% (high) to 108.2% (low), showing that post-training architecture search can substantially reduce inference costs without sacrificing quality.
- Abstract(参考訳): 推論に焦点をあてたLLMは、より長い推論トレースを生成することで、回答の品質を向上させるが、追加のトークンは、提供コストを劇的に増加させ、推論最適化を動機付けている。
トレーニング後のニューラルネットワークサーチ(NAS)フレームワークであるPuzzleをgpt-oss-120Bに拡張して適用し、デプロイ最適化の派生であるgpt-oss-puzzle-88Bを生成する。
提案手法は,不均一なMoEエキスパートプルーニング,ウィンドウアテンションによるフルコンテキストアテンションの選択的置き換え,キャリブレーションスケールによるFP8 KV-cache量子化,低生成時間を維持しながらトレーニング後の強化学習を併用して精度を回復する。
トーケン毎の速度では、8XH100ノードでは、長文と短文の設定でそれぞれ1.63Xと1.22Xのスループットのスピードアップを達成する。
gpt-oss-puzzle-88Bは、単一のNVIDIA H100 GPU上でのスループットを2.82倍に向上させる。
しかし、トークンカウントは推論の労力とモデルバリエーションによって変更されるため、トレーサビリティ(tok/s)ごとのスループット(ms/token)とレイテンシ(ms/token)が必ずしもエンドツーエンドのスピードアップにつながるとは限らない。
逆に、スループットのゲインは、より推論トークンに費やして精度を向上させることができるため、私たちは、トークンの生成によるスループットの正規化と、推論作業における高速フロンティアのトレースを行う要求レベルの効率指標を提唱します。
gpt-oss-puzzle-88Bは、フロンティア全体のgpt-oss-120Bよりも改善され、要求レベルの効率が最大1.29倍向上することを示す。
様々なベンチマークにおいて、gpt-oss-puzzle-88Bは、推論の努力で平均値の精度をわずかに上回るが、保持率は100.8%(ハイ)から108.2%(ロー)であり、トレーニング後のアーキテクチャサーチは品質を犠牲にすることなく推論コストを大幅に削減できることを示している。
関連論文リスト
- LLaDA2.1: Speeding Up Text Diffusion via Token Editing [72.92893150459909]
我々は、復号速度と生成品質のトレードオフを超越するパラダイムシフトであるLLaDA2.1を発表した。
従来のマスク・ツー・Token(M2T)方式にT2T編集をシームレスに織り込むことで,共同でしきい値復号方式を導入する。
この構造的革新は、2つの異なるペルソナをもたらす: Speedy Mode (S Mode) は、M2T閾値を大胆に下げ、出力を洗練させるためにT2Tに依存しながら従来の制約を回避し、優れたベンチマークを確保するために保守的なしきい値に傾くQuality Mode (Q Mode) である。
論文 参考訳(メタデータ) (2026-02-09T14:00:07Z) - LACONIC: Dense-Level Effectiveness for Scalable Sparse Retrieval via a Two-Phase Training Curriculum [73.82125917416067]
LACONICは、Llama-3アーキテクチャに基づく学習されたスパースレトリバーのファミリーである。
8Bの派生型はMTEB Retrievalベンチマークで最先端の60.2 nDCGを達成し、リーダーボードで15位となった。
論文 参考訳(メタデータ) (2026-01-04T22:42:20Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - Enabling Vibration-Based Gesture Recognition on Everyday Furniture via Energy-Efficient FPGA Implementation of 1D Convolutional Networks [11.481972015296812]
本研究では、低消費電力フィールドプログラマブルゲートアレイ(FPGA)上にコンパクトNNを展開させるエネルギー効率のよいソリューションを提案する。
我々は、複雑なスペクトル前処理を生波形入力に置き換え、複雑なオンボード前処理を不要とし、精度を犠牲にすることなく入力サイズを21倍削減する。
組み込みFPGAに適した2つの軽量アーキテクチャ(1D-CNNと1D-SepCNN)を設計し、パラメータを3億6900万から216に削減し、同等の精度を維持した。
論文 参考訳(メタデータ) (2025-10-27T09:30:36Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - LAWCAT: Efficient Distillation from Quadratic to Linear Attention with Convolution across Tokens for Long Context Modeling [27.045621004239067]
本稿では,事前学習した変圧器の性能を線形アテンションアーキテクチャに効率よく伝達する新しい線形化フレームワークであるLAWCATを提案する。
LAWCATは因果Conv1D層を統合し、局所的な依存性モデリングを強化し、正規化されたゲート付き線形アテンションを用いてコンテキスト長の一般化を改善する。
以上の結果から,Mistral-7Bを1K長で蒸留すると,90%以上のパスキー検索精度が最大22Kトークンとなることがわかった。
論文 参考訳(メタデータ) (2025-09-22T22:43:44Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Scaling Attention to Very Long Sequences in Linear Time with Wavelet-Enhanced Random Spectral Attention (WERSA) [1.7622426179653563]
トランスフォーマーモデルは、通常の注意が2次的なO(n2)$時間複雑性を持つため、長い列で計算にコストがかかる。
WERSA(Wavelet-Enhanced Random Spectral Attention)は、線形な$O(n)$時間複雑性のメカニズムである。
計算負荷を大幅に削減し、精度を損なうことなく、WERSAはより実用的で安価で長いコンテキストモデルを可能にする。
論文 参考訳(メタデータ) (2025-07-11T14:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。