Fugu-MT 論文翻訳(概要): Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition

論文の概要: Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition

arxiv url: http://arxiv.org/abs/2505.22375v1
Date: Wed, 28 May 2025 14:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.642586
Title: Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition
Title（参考訳）: Pangu Embedded: メタ認知を用いた効率的なデュアルシステムLLMレゾネータ
Authors: Hanting Chen, Yasheng Wang, Kai Han, Dong Li, Lin Li, Zhenni Bi, Jinpeng Li, Haoyu Wang, Fei Mi, Mingjian Zhu, Bin Wang, Kaikai Song, Yifei Fu, Xu He, Yu Luo, Chong Zhu, Quan He, Xueyu Wu, Wei He, Hailin Hu, Yehui Tang, Dacheng Tao, Xinghao Chen, Yunhe Wang, Other Contributors,
Abstract要約: Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
参考スコア（独自算出の注目度）: 94.48729736117906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents Pangu Embedded, an efficient Large Language Model (LLM) reasoner developed on Ascend Neural Processing Units (NPUs), featuring flexible fast and slow thinking capabilities. Pangu Embedded addresses the significant computational costs and inference latency challenges prevalent in existing reasoning-optimized LLMs. We propose a two-stage training framework for its construction. In Stage 1, the model is finetuned via an iterative distillation process, incorporating inter-iteration model merging to effectively aggregate complementary knowledge. This is followed by reinforcement learning on Ascend clusters, optimized by a latency-tolerant scheduler that combines stale synchronous parallelism with prioritized data queues. The RL process is guided by a Multi-source Adaptive Reward System (MARS), which generates dynamic, task-specific reward signals using deterministic metrics and lightweight LLM evaluators for mathematics, coding, and general problem-solving tasks. Stage 2 introduces a dual-system framework, endowing Pangu Embedded with a "fast" mode for routine queries and a deeper "slow" mode for complex inference. This framework offers both manual mode switching for user control and an automatic, complexity-aware mode selection mechanism that dynamically allocates computational resources to balance latency and reasoning depth. Experimental results on benchmarks including AIME 2024, GPQA, and LiveCodeBench demonstrate that Pangu Embedded with 7B parameters, outperforms similar-size models like Qwen3-8B and GLM4-9B. It delivers rapid responses and state-of-the-art reasoning quality within a single, unified model architecture, highlighting a promising direction for developing powerful yet practically deployable LLM reasoners.
Abstract（参考訳）: この研究は、Acend Neural Processing Units (NPUs) 上で開発された効率的なLarge Language Model (LLM) 推論器であるPangu Embeddedを提示する。 Pangu Embedded は、既存の推論最適化 LLM において、計算コストと推論遅延の問題に対処している。構築のための2段階のトレーニングフレームワークを提案する。ステージ1では、モデルが反復蒸留プロセスによって微調整され、補的知識を効果的に集約するために統合間モデルが組み込まれている。続いてAscendクラスタ上で強化学習が行われ、静的同期並列処理と優先度付きデータキューを組み合わせたレイテンシ耐性スケジューラによって最適化される。 RLプロセスはマルチソース・アダプティブ・リワード・システム(MARS)によってガイドされ、決定論的メトリクスと数学、コーディング、一般的な問題解決タスクのための軽量LLM評価器を用いて動的でタスク固有の報酬信号を生成する。ステージ2はデュアルシステムフレームワークを導入し、Pangu Embeddedにはルーチンクエリの"高速"モードと複雑な推論の"スロー"モードが組み込まれている。このフレームワークは、ユーザ制御のための手動モードスイッチングと、レイテンシと推論深さのバランスをとるために、動的に計算リソースを割り当てる自動複雑対応モード選択メカニズムの両方を提供する。 AIME 2024、GPQA、LiveCodeBenchといったベンチマークの実験結果は、Pangu Embeddedに7Bパラメータが組み込まれており、Qwen3-8BやGLM4-9Bのような類似サイズのモデルを上回っていることを示している。単一の統一モデルアーキテクチャにおいて、迅速な応答と最先端の推論品質を提供し、強力で実用的にデプロイ可能なLSM推論を開発するための有望な方向性を強調します。

関連論文リスト

DynaSwarm: Dynamically Graph Structure Selection for LLM-based Multi-agent System [0.276240219662896]
DynaSwarmはマルチエージェントシステムを強化する動的フレームワークである。グラフ構造を最適化するためにアクター-批判的強化学習機構を使用する。また、動的グラフセレクタを持ち、各入力サンプルに対して最適なグラフ構造を適応的に選択する。
論文参考訳（メタデータ） (2025-07-31T05:52:30Z)
LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning [4.105967217565736]
システム1やシステム2の要求によってデータとパラメータの両方を分割するデュアルシステムLoRAフレームワークを提案する。具体的には、マルチモデルロールプレイングと投票によってタスクデータを分類し、重要スコアリングに基づいて分割パラメータを分割する。実験の結果,2段階の微調整戦略であるSFTとRLは,SOTA PEFTベースラインの整合性や超越性を保ちながら,アクティブパラメータの使用率を低下させることがわかった。
論文参考訳（メタデータ） (2025-07-28T17:11:26Z)
ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism [9.93378263858092]
マルチモーダル大言語モデル(MLLM)は、特徴抽出器とプロジェクションモジュールを組み込むことで、画像、ビデオ、オーディオを扱う。現在の密結合のサービスアーキテクチャは、混合要求タイプを区別するのに苦労しています。資源の不均一性に弾力的に適応する新しいサービスパラダイムであるElastic Multimodal Parallelism (EMP)を提案する。
論文参考訳（メタデータ） (2025-07-14T08:53:48Z)
KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。 KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文参考訳（メタデータ） (2025-07-11T04:07:10Z)
FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。 PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文参考訳（メタデータ） (2025-02-21T13:52:31Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition [15.204703947024242]
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-02-07T13:39:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。