論文の概要: Megrez2 Technical Report
- arxiv url: http://arxiv.org/abs/2507.17728v1
- Date: Wed, 23 Jul 2025 17:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.113663
- Title: Megrez2 Technical Report
- Title(参考訳): Megrez2テクニカルレポート
- Authors: Boxun Li, Yadong Li, Zhiyuan Li, Congyi Liu, Weilin Liu, Guowei Niu, Zheyue Tan, Haiyang Xu, Zhuyu Yao, Tao Yuan, Dong Zhou, Yueqing Zhuang, Bo Zhao, Guohao Dai, Yu Wang,
- Abstract要約: 本稿では,デバイスネイティブデプロイメントに最適化された,軽量かつ高性能な言語モデルであるMegrez2を紹介する。
Megrez2はクロスレイヤーなエキスパート共有機構を導入し、パラメータの総数を大幅に削減した。
Megrez2アーキテクチャの最初のインスタンス化として,5トリリオントーケンコーパスで事前学習したMegrez2-Previewモデルを導入する。
- 参考スコア(独自算出の注目度): 21.488594968935548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Megrez2, a novel lightweight and high-performance language model architecture optimized for device native deployment. Megrez2 introduces a novel cross-layer expert sharing mechanism, which significantly reduces total parameter count by reusing expert modules across adjacent transformer layers while maintaining most of the model's capacity. It also incorporates pre-gated routing, enabling memory-efficient expert loading and faster inference. As the first instantiation of the Megrez2 architecture, we introduce the Megrez2-Preview model, which is pre-trained on a 5-trillion-token corpus and further enhanced through supervised fine-tuning and reinforcement learning with verifiable rewards. With only 3B activated and 7.5B stored parameters, Megrez2-Preview demonstrates competitive or superior performance compared to larger models on a wide range of tasks, including language understanding, instruction following, mathematical reasoning, and code generation. These results highlight the effectiveness of the Megrez2 architecture to achieve a balance between accuracy, efficiency, and deployability, making it a strong candidate for real-world, resource-constrained applications.
- Abstract(参考訳): 本稿では,デバイスネイティブデプロイメントに最適化された,軽量で高性能な言語モデルアーキテクチャであるMegrez2を紹介する。
Megrez2は、隣接するトランスフォーマー層にまたがる専門家モジュールを再利用し、モデルのキャパシティの大部分を維持しながら、パラメータの総数を大幅に削減する、新しいクロス層エキスパート共有メカニズムを導入している。
プリゲートルーティングも組み込まれており、メモリ効率の高い専門家の読み込みと推論の高速化を実現している。
Megrez2アーキテクチャの最初のインスタンス化として,5トリリオントーケンコーパスで事前訓練されたMegrez2-Previewモデルを導入し,教師付き微調整および強化学習によりさらに強化した。
3Bのアクティベートと7.5Bの格納パラメータだけで、Megrez2-Previewは、言語理解、命令追従、数学的推論、コード生成を含む幅広いタスクにおけるより大きなモデルと比較して、競争力や優れたパフォーマンスを示す。
これらの結果は、Megrez2アーキテクチャの有効性を強調し、精度、効率、デプロイ可能性のバランスを保ち、現実世界のリソースに制約のあるアプリケーションにとって強力な候補となる。
関連論文リスト
- Optimal Control for Transformer Architectures: Enhancing Generalization, Robustness and Efficiency [5.369214258095039]
最適制御理論の観点からトランスフォーマーを考察し、連続時間定式化のツールを用いて、トレーニングとアーキテクチャ設計に関する実用的な洞察を導出する。
このフレームワークは、一般化や堅牢性を含む望ましい理論的保証を提供しながら、既存のTransformerモデルの性能を改善している。
我々は,テキスト生成,感情分析,画像分類,点雲分類を動機とするタスクについて,広範囲にわたる7つの実験を行った。
論文 参考訳(メタデータ) (2025-05-16T00:31:10Z) - AI Accelerators for Large Language Model In-ference: Architecture Analysis and Scaling Strategies [10.520360508397237]
大規模言語モデル(LLM)は推論のための特別なハードウェアの新しい波を駆動している。
本稿では,商用AIアクセラレータのワークロード中心,クロスアーキテクチャ性能に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2025-05-13T20:21:20Z) - S2A: A Unified Framework for Parameter and Memory Efficient Transfer Learning [8.602744958104969]
本研究では,微調整時の活性化のメモリフットプリントを低減するため,新しいPETLフレームワークであるStructure to Activation (S2A)を提案する。
具体的には,1)パラメトリックモデル構造におけるアクティベーションモジュールの設計(バイアス,プロンプト,サイドモジュール)からなり,パラメータやアクティベーションメモリの大幅な削減を実現している。
提案手法は既存のPETL技術よりも優れており,GPUメモリフットプリントの4倍の削減を実現しているだけでなく,可変パラメータの少ない精度で競合性能を示す。
論文 参考訳(メタデータ) (2025-03-11T08:10:03Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - MOGNET: A Mux-residual quantized Network leveraging Online-Generated weights [2.7036595757881323]
MOGNETは、リソース限定のハードウェアと互換性のあるコンパクトなモデルアーキテクチャである。
類似またはより低いモデルサイズで1%まで明確なギャップを保ち、より高い精度を達成することができる。
論文 参考訳(メタデータ) (2025-01-16T13:30:20Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - LowFormer: Hardware Efficient Design for Convolutional Transformer Backbones [10.435069781620957]
効率的な視覚バックボーンの研究は、畳み込みとトランスフォーマーブロックの混合モデルに進化しつつある。
我々は、MACではなく、実際のスループットとレイテンシの観点から、一般的なモジュールとアーキテクチャ設計の選択を分析します。
マクロデザインとマイクロデザインを組み合わせることで,LowFormerと呼ばれる,ハードウェア効率のよいバックボーンネットワークの新たなファミリを作ります。
論文 参考訳(メタデータ) (2024-09-05T12:18:32Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Lite-Mono: A Lightweight CNN and Transformer Architecture for
Self-Supervised Monocular Depth Estimation [9.967643080731683]
CNNとトランスフォーマーの効率的な組み合わせについて検討し,Lite-Monoのハイブリッドアーキテクチャを設計する。
完全なモデルはMonodepth2よりも精度が高く、トレーニング可能なパラメータが約80%少ない。
論文 参考訳(メタデータ) (2022-11-23T18:43:41Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Dynamic Memory Induction Networks for Few-Shot Text Classification [84.88381813651971]
本稿では,テキスト分類のための動的メモリ誘導ネットワーク(DMIN)を提案する。
提案したモデルでは, miniRCV1 と ODIC データセット上での新たな最先端結果を実現し,最高の性能(精度)を24%向上させる。
論文 参考訳(メタデータ) (2020-05-12T12:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。