論文の概要: Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition
- arxiv url: http://arxiv.org/abs/2505.22375v1
- Date: Wed, 28 May 2025 14:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.642586
- Title: Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition
- Title(参考訳): Pangu Embedded: メタ認知を用いた効率的なデュアルシステムLLMレゾネータ
- Authors: Hanting Chen, Yasheng Wang, Kai Han, Dong Li, Lin Li, Zhenni Bi, Jinpeng Li, Haoyu Wang, Fei Mi, Mingjian Zhu, Bin Wang, Kaikai Song, Yifei Fu, Xu He, Yu Luo, Chong Zhu, Quan He, Xueyu Wu, Wei He, Hailin Hu, Yehui Tang, Dacheng Tao, Xinghao Chen, Yunhe Wang, Other Contributors,
- Abstract要約: Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
- 参考スコア(独自算出の注目度): 94.48729736117906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents Pangu Embedded, an efficient Large Language Model (LLM) reasoner developed on Ascend Neural Processing Units (NPUs), featuring flexible fast and slow thinking capabilities. Pangu Embedded addresses the significant computational costs and inference latency challenges prevalent in existing reasoning-optimized LLMs. We propose a two-stage training framework for its construction. In Stage 1, the model is finetuned via an iterative distillation process, incorporating inter-iteration model merging to effectively aggregate complementary knowledge. This is followed by reinforcement learning on Ascend clusters, optimized by a latency-tolerant scheduler that combines stale synchronous parallelism with prioritized data queues. The RL process is guided by a Multi-source Adaptive Reward System (MARS), which generates dynamic, task-specific reward signals using deterministic metrics and lightweight LLM evaluators for mathematics, coding, and general problem-solving tasks. Stage 2 introduces a dual-system framework, endowing Pangu Embedded with a "fast" mode for routine queries and a deeper "slow" mode for complex inference. This framework offers both manual mode switching for user control and an automatic, complexity-aware mode selection mechanism that dynamically allocates computational resources to balance latency and reasoning depth. Experimental results on benchmarks including AIME 2024, GPQA, and LiveCodeBench demonstrate that Pangu Embedded with 7B parameters, outperforms similar-size models like Qwen3-8B and GLM4-9B. It delivers rapid responses and state-of-the-art reasoning quality within a single, unified model architecture, highlighting a promising direction for developing powerful yet practically deployable LLM reasoners.
- Abstract(参考訳): この研究は、Acend Neural Processing Units (NPUs) 上で開発された効率的なLarge Language Model (LLM) 推論器であるPangu Embeddedを提示する。
Pangu Embedded は、既存の推論最適化 LLM において、計算コストと推論遅延の問題に対処している。
構築のための2段階のトレーニングフレームワークを提案する。
ステージ1では、モデルが反復蒸留プロセスによって微調整され、補的知識を効果的に集約するために統合間モデルが組み込まれている。
続いてAscendクラスタ上で強化学習が行われ、静的同期並列処理と優先度付きデータキューを組み合わせたレイテンシ耐性スケジューラによって最適化される。
RLプロセスはマルチソース・アダプティブ・リワード・システム(MARS)によってガイドされ、決定論的メトリクスと数学、コーディング、一般的な問題解決タスクのための軽量LLM評価器を用いて動的でタスク固有の報酬信号を生成する。
ステージ2はデュアルシステムフレームワークを導入し、Pangu Embeddedにはルーチンクエリの"高速"モードと複雑な推論の"スロー"モードが組み込まれている。
このフレームワークは、ユーザ制御のための手動モードスイッチングと、レイテンシと推論深さのバランスをとるために、動的に計算リソースを割り当てる自動複雑対応モード選択メカニズムの両方を提供する。
AIME 2024、GPQA、LiveCodeBenchといったベンチマークの実験結果は、Pangu Embeddedに7Bパラメータが組み込まれており、Qwen3-8BやGLM4-9Bのような類似サイズのモデルを上回っていることを示している。
単一の統一モデルアーキテクチャにおいて、迅速な応答と最先端の推論品質を提供し、強力で実用的にデプロイ可能なLSM推論を開発するための有望な方向性を強調します。
関連論文リスト
- Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。
PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文 参考訳(メタデータ) (2025-02-21T13:52:31Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition [15.204703947024242]
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-07T13:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。