論文の概要: PiMoE: Token-Level Routing for Integrating High-Precision Computation and Reasoning
- arxiv url: http://arxiv.org/abs/2509.18169v1
- Date: Wed, 17 Sep 2025 10:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.44665
- Title: PiMoE: Token-Level Routing for Integrating High-Precision Computation and Reasoning
- Title(参考訳): PiMoE:高精度計算と推論の統合のためのToken-Level Routing
- Authors: Hengbo Xiao, Jingyuan Fan, Xin Tong, Jingzhao Zhang, Chao Lu, Guannan He,
- Abstract要約: 計算と推論を統合するためのトレーニングおよび推論アーキテクチャであるPiMoE(Physically-soolated Mixture of Experts)を提案する。
ツール呼び出しのワークフローパラダイムの代わりに、PiMoEは専門家を個別に訓練した後、計算機能をニューラルネットワークに統合する。
- 参考スコア(独自算出の注目度): 20.622941954258973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex systems typically rely on high-precision numerical computation to support decisions, but current large language models (LLMs) cannot yet incorporate such computations as an intrinsic and interpretable capability with existing architectures. Mainstream multi-agent approaches can leverage external experts, but inevitably introduce communication overhead and suffer from inefficient multimodal emergent capability and limited scalability. To this end, we propose PiMoE (Physically-isolated Mixture of Experts), a training and inference architecture for integrating computation and reasoning. Instead of the workflow paradigm of tool invocation, PiMoE endogenously integrates computational capabilities into neural networks after separately training experts, a text-to-computation module, and a router. At inference, the router directs computation and reasoning at the token level, thereby enabling iterative alternation within a single chain of thought. We evaluate PiMoE on two reasoning-computation tasks against LLM finetuning and the multi-agent system approaches. Results show that the PiMoE architecture achieves not only higher accuracy than directly finetuning LLMs but also significant improvements in response latency, token usage, and GPU energy consumption compared with mainstream multi-agent approaches. PiMoE offers an efficient, interpretable, and scalable paradigm for next-generation scientific or industrial intelligent systems.
- Abstract(参考訳): 複雑なシステムは通常意思決定を支援するために高精度の数値計算に頼っているが、現在の大規模言語モデル(LLM)では、そのような計算を既存のアーキテクチャに内在的かつ解釈可能な能力として組み込むことはできない。
主流のマルチエージェントアプローチは外部の専門家を活用できるが、必然的に通信オーバーヘッドを導入し、非効率なマルチモーダル創発能力と限られたスケーラビリティに悩まされる。
そこで本研究では,Phisical-isolated Mixture of Experts(Physically-isolated Mixture of Experts)を提案する。
ツール呼び出しのワークフローパラダイムの代わりに、PiMoEは専門家を個別に訓練した後、計算機能をニューラルネットワークに統合する。
推論において、ルータはトークンレベルでの計算と推論を指示し、単一の思考の連鎖内で反復的な変更を可能にする。
LLMファインタニングとマルチエージェントシステムアプローチの2つの推論・計算タスクでPiMoEを評価する。
その結果, PiMoE アーキテクチャは LLM を直接微調整するだけでなく, 応答遅延, トークン使用量, GPU エネルギー消費の大幅な改善を実現している。
PiMoEは、次世代の科学的または工業的インテリジェントシステムに対して、効率的で解釈可能でスケーラブルなパラダイムを提供する。
関連論文リスト
- LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models [4.370731670976415]
大規模言語モデル (LLM) は複雑な数学的ベンチマークにおいて顕著な性能を達成している。
LLMは単純な算術的なタスクに苦しむことが多く、過剰な説明や「過度に考える」回答の傾向を示す。
このフレームワークは、ランダムなテストデータ生成と堅牢な解析戦略を備えた14の数学タスクを提供する。
カスタムタスクでツールを拡張し、シードでの実験を再現し、詳細な効率レポートを生成することができる。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Inducing Point Operator Transformer: A Flexible and Scalable
Architecture for Solving PDEs [7.152311859951986]
誘導点演算子変換器(IPOT)と呼ばれる注意モデルを導入する。
IPOTは、グローバルなインタラクションを計算的に効率的な方法でキャプチャしながら、任意の入力関数と出力クエリを処理するように設計されている。
IPOTは、プロセッサからのインプット/アウトプットの離散化を遅延ボトルネックより小さくすることで、任意の離散化を処理する柔軟性を提供する。
論文 参考訳(メタデータ) (2023-12-18T06:57:31Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Neuromorphic scaling advantages for energy-efficient random walk
computation [0.28144129864580447]
ニューロモルフィックコンピューティングは、人間のハードウェアで脳の計算構造とアーキテクチャを再現することを目的としている。
スパイキングニューロモルフィックアーキテクチャの高次並列性と構成性は、離散時間チェーンを介してランダムウォークを実装するのに適していることを示す。
NMCプラットフォームは十分な規模で,高性能コンピューティングプラットフォームのエネルギー需要を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-07-27T19:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。